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计算 机 行业 正在 改变 我 们 的 社会 ， 正 如 物理 学 和 化 学 在 前 两 个 世 
纪 给 社会 剖 来 的 巨大 改变 一 样 。 的 确 ， 数 字 技 术 几 乎 影响 甚至 颠覆 了 
我 们 生活 的 方方面面 。 人 鉴于 计算 机 行业 对 现代 社会 的 重要 性 ， 人 们 对 
让 这 一 切 成 为 可 能 的 基本 概念 却 知之 甚 少 ， 这 显得 有 点 自 相 矛盾 。 对 
这 些 概 念 的 研究 是 计算 机 科学 的 核心 ， 而 这 本 起 考 密 元 的 新 书 则 是 问 
大 众 展示 这 些 概念 的 少数 书籍 之 一 。 

















人 们 较 少 视 计算 机 科学 为 一 门 学 科 ， 其 中 一 个 原因 是 ， 高 中 极 少 
开设 计算 机 科学 这 门 课程 。 虽 然 人 们 通常 认为 要 强制 开设 物理 学 和 化 
学 基础 ， 但 作为 独立 学 科 的 计算 机 科学 ， 通 常 只 有 在 大 学 阶段 才 开 设 
此 诬 程 。 况 且 ， 学 校 讲授 的 “计算 机 ”或 “信息 与 通信 技术 ”知识 ， 
通常 只 是 略 高 于 使 用 软件 的 技能 训练 。 因 此 ， 学 生 们 认为 计算 机 学 科 
枯燥 也 并 不 意外 ; 而 他 们 在 娱乐 和 通信 上 使 用 计算 机 技术 的 天 然 热 
情 ， 也 被 创造 这 类 技术 缺乏 学 术 深 度 的 印象 所 减弱 。 这 些 问 题 被 认为 
征 导 致 过 去 10 年 大 学 计算 机 科学 专业 学 生 人 数 下 降 一 半 的 核心 原因 。 
考虑 到 数字 技术 对 现代 社会 的 极度 重要 性 ， 让 人 们 重新 领略 计算 机 科 
学 的 奇妙 之 处 已 经 刻不容缓 。 











2008 年 ， 我 很 染 幸 地 被 选 为 第 180 届 英国 皇家 学 院 圣 诞 讲 座 
(Royal Institution Christmas Lectures) 的 演讲 人 ， 访 讲座 由 迈 
克 尔 。 法 拉 第 (Michael Faraday) 于 1826 年 发 起 。2008 年 圣诞 讲座 的 
主题 首次 涉及 计算 机 科学 。 在 准备 这 些 讲座 时 ， 我 花 了 很 多 时 间 来 思 
考 如 何 向 大 众 解释 计算 机 科学 ， 却 发 现 满足 这 一 需求 的 资源 很 少 ， 几 
乎 没有 关于 计算 机 科学 的 畅销 书 。 因 此 ， 我 特别 高 兴 能 看 到 麦 考 密 克 
的 这 本 新 书 。 








麦 考 密 死 在 面 问 大 众 介绍 计算 机 科学 的 复杂 思想 上 做 得 非常 好 。 
这 其 中 许多 思想 极其 新 络 ， 仅 从 这 点 上 来 看 ， 它 们 就 很 值得 关注 。 举 
个 例子 : 电子 商务 的 爆炸 式 增长 之 所 以 成 为 可 能 ， 是 因为 具备 了 能 在 
互联 网 上 秘密 、 安 全 地 发 送 机 密 信 息 〈 如 信用 卡 卡 号 ) 的 能 力 。 数 十 
年 来 ， 建 立 在 “开放 ”通道 上 的 保密 通信 被 认为 是 一 个 科学 难题 。 妆 
人 们 发 现 解 决 方法 时 ， 才 友 觉 保密 通信 极度 优雅 ， 而 麦 考 密 克 也 以 精 
确 的 类 比 进行 了 解释 ， 无 须 读者 拥有 计算 机 科学 知识 。 这 些 优点 使 这 
本 书 对 科普 读物 做 出 了 不 可 估量 的 页 献 ， 我 极力 推荐 本 书 。 











克 里 斯 。 毕 晓 普 (Chris Bishop) 


微软 剑桥 研究 院 资 深 科 学 家 





大 不 列 题 星 家 学 院 副 院 长 


爱丁堡 大 学 计算 机 科学 教授 


前 言 一 一 计算 机 日 第 运用 的 旱 越 
思想 有 哪些 


城 


此 用 小 技 …… 为 诗 之 诀 在 于 有 气 、 有 势 、 有 
情 、 有 韵 、 有 起 、 有 承 、 有 转 、 有 合 。 


威廉 姆 。 莎 士 比 亚 ， 
《 爱 的 徒劳 》 (Love” s Labour”s Lost) 


计算 机 科学 中 的 伟大 思想 是 如 何 诞生 的 ?以 下 遂 选 部 分 思想 进行 
人 


介绍 : 





”20 世 纪 30 年 代 ， 在 第 一 合 数字 计算 机 发 明 以 前 ， 一 位 英国 
天 才 开 创 了 计算 机 科学 领域 。 之 后 ， 这 位 天 才 继 续 证 明 ， 不 管 未 
来 建造 的 计算 机 运行 多 快 、 功 能 多 强大 、 设 计 得 多 好 ， 仍 旧 有 一 
些 问 题 是 计算 机 不 能 解决 的 。 

”1948 年 ， 一 位 供职 于 电话 公司 的 科学 家 发 表 了 一 篇 论文 ， 
开创 了 信息 理论 领域 。 这 位 科学 家 的 工作 让 计算 机 能 以 完美 的 精 
确 度 传 输 信 息 ， 即 便 大 部 分 数据 都 因为 被 干扰 而 破坏 。 

”1956 年 ， 一 群 学 者 在 达 特 苯 斯 举行 会 议 。 这 次 会 议 的 目标 
很 清晰 ， 也 很 大 胆 ， 那 就 是 开创 人 工 智 能 领域 。 在 取得 了 许多 重 
大 成 功 以 及 经 历 了 无 数 失 望 之 后 ， 我 们 仍 期 竺 出 现 一 个 真正 的 吞 
能 计算 机 程序 。 








。 1969 年 ，IBM 公 司 的 一 名 研究 人 员 发 明了 一 种 将 信息 组 织 进 
数据 库 中 的 先进 方法 。 目 前 ， 绝 大 多 数 在 线 交 易 都 使 用 该 技术 存 
储 及 检索 信息 。 


”1974 年 ， 英 国政 府 秘密 通信 实验 室 的 研究 人 员 有 发 明了 一 种 
让 计算 机 安全 通信 的 方法 ， 即 为 一 台 计 算 机 可 以 查看 在 计算 机 之 
间 交 换 的 所 有 信息 。 这 些 研 究 人 员 为 政府 保密 所 限 一 一 个 过 幸运 
的 是 ， 三 名 美国 专家 独立 开发 并 拓展 了 这 项 重大 发 明 ， 为 互联 网 
上 所 有 的 安全 通信 打下 了 基础 。 

。1996 年 ， 两 名 斯 坦 福 大 学 博士 生 决 定 联 手 搭 建 一 个 互联 网 
搜索 引擎 。 几 年 后 ， 他 们 创办 了 谷歌 公司 一 一 互联 网 时 代 的 第 一 
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在 我 们 圣 受 21 世 纪 技 术 惊 人 增长 的 同时 ， 使 用 计算 机 设备 一 一 不 


管 是 现 有 最 强大 的 一 组 机 需 还 是 最 新 、 最 时 尚 的 手持 设备 一 一 都 不 可 
避免 地 要 依赖 计算 机 科学 的 基础 思想 ， 而 这 些 思想 都 诞生 于 20 世 纪 。 


想 一 想 : 你 今天 做 过 什么 令 人 印象 深刻 的 事情 吗 ? 好 吧 ， 这 个 问题 的 
答案 取决 于 你 怎么 看 。 也 许 你 搜索 了 包含 数 十 亿 份 文档 的 资料 库 ， 从 
中 选 出 两 到 三 份 与 你 的 需求 最 相关 的 文档 ?即便 有 能 够 影响 所 有 电子 
设备 的 电磁 干扰 ， 存 储 或 传输 了 数 百 万 条 信息 ， 也 没 犯 一 点 错误 ?你 
是 否 成 功 地 完成 了 一 次 在 线 交 易 ， 即 便 同 时 有 成 千 上 万 名 消费 者 在 访 
问 同一 个 服务 器 ? 你 是 否 在 能 够 被 其 他 数 十 台 计 算 机 嘿 控 到 的 线路 中 
传输 了 一 些 机 蜜 信息 《比如 信用 卡 卡 号 ) ? 你 是 否 运用 过 压缩 的 魔 
力 ， 将 数 兆 的 照片 压缩 成 更 易于 管理 的 大 小 ， 以 便 在 电子 邮件 中 发 
送 ? 你 是 否 在 手持 设备 上 触发 了 了 人工 智 能 ， 上 自动 纠正 你 在 手持 设备 的 
小 巧 键盘 上 输入 的 内 容 ? 








这 些 令 人 印象 深刻 的 壮举 都 依赖 于 之 前 提 到 的 伟大 发 现 。 然 而 ， 
绝 大 多 数 计算 机 用 户 每 天 都 会 多 次 运用 这 些 独 创 想 法 ， 却 从 没有 意识 


到 ! 本 书 旨 在 面向 大 众 解释 这 些 概念 一 一 我 们 每 天 使 用 的 计算 机 科学 
的 伟大 思想 。 在 解释 每 个 概念 时 ， 我 都 假设 读者 不 了 解 任何 计算 机 科 
学 的 任何 知识 。 


算法 : 指 尖 精灵 的 构件 


到 目前 为 止 ， 我 一 直 在 谈 计 算 机 科学 的 伟大 “思想 ”， 但 计算 机 
科学 家 们 将 许多 重要 思想 形容 为 “算法 ”。 那 么 思想 和 算法 之 间 有 什 
么 区 别 呢 ? 究竟 什么 是 算法 ? 这 一 问题 最 简单 的 答案 是 ， 算 法 是 一 张 
精确 的 处 方 ， 按 顺序 详细 列 出 了 解决 一 个 问题 所 需要 的 具体 步骤 。 我 
们 小 时 候 在 学 校 学 到 的 一 种 算法 吏 是 很 好 的 例子 : 将 两 个 大 数字 相 加 
的 算法 。 如 下 例 所 示 。 这 个 算法 涉及 一 连 串 步 又， 开始 的 步骤 如 下 : 
“首先 ， 将 两 个 数 的 最 末 位 数 相 加 ， 写 下 结果 的 最 末 位 数 ， 将 剩 下 的 
数 放 到 堪 侧 的 下 一 栏 ， 接 着， 将 下 一 栏 的 数 相 加 ， 再 将 除 结果 末 位 数 
之 外 的 数字 和 前 一 栏 余 下 的 数 相 加 ……”。 依 此 类 推 。 











] I1 
4844978 4844978 4844978 
+3745945 +3745945 +3745945 
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将 两 个 数字 相 加 的 算法 的 前 两 步 。 





请 注意 算法 步骤 近 竹 机 械 化 的 感 党 。 事 实 上 ， 这 是 算法 的 关键 特 
点 之 一 : 每 一 步 都 必须 绝对 精确 ， 没 有 任何 人 类 意图 或 推测 掺 杂 其 
中 。 这 样 ， 每 一 个 完全 机 械 化 的 步骤 才能 被 编 入 计算 机 。 算 法 的 另 一 
个 重要 特点 是 ， 不 管 输入 什么 ， 算 法 总 能 运行 。 我 们 在 学 校 学 到 的 相 
加 算法 就 拥有 这 一 特性 : 不 管 你 想 把 哪 两 个 数 相 加 ， 算 法 最 终 都 会 得 
出 正确 答案 。 比 如 ， 用 这 一 算法 将 两 个 长 达 1 000 位 的 数 相 加 ， 你 肯定 
能 得 到 答案 ， 尽 管 这 需要 相当 长 的 时 间 。 


对 于 把 算法 定义 为 一 张 精 确 、 机 械 化 的 处 方 的 说 法 ， 你 也 许 会 略 
感 好 奇 。 这 张 处 方 究竟 要 有 多 精确 ? 要 进行 哪些 基本 操作 ? 比如 ， 在 
上 面 的 相 加 算法 中 ， 人 简单 地 说 一 名 “把 两 个 数 相 加 ”是 不 是 就 行 了 ? 
还 是 说 我 们 要 在 加 法 表 上 列 出 所 有 个 位 数字 ? 这 些 细节 看 起 来 也 许 有 
点 乏味 ， 甚 至 会 显得 有 点 学 究 气 ， 但 其 实 离 真相 不 远 了 : 这 些 问题 的 
真正 答案 正 处 于 计算 机 科学 的 核心 ， 并 且 也 和 哲学 、 物 理学 、 神 经 科 
学 以 及 遗传 学 有 联系 。 有 关 算 法 究竟 是 什么 的 深层 问题 都 归结 于 一 个 
前 提 一 一 也 就 是 众所周知 的 印 奇 一 图 灵 论 题 (Church - Turing 
Thesis) 。 我 们 将 在 第 十 章 重 温 这 些 问 题 ， 届 时 我 们 还 将 讨论 计算 的 
理论 极限 ， 以 及 印 奇 一 图 灵 论 题 的 一 些 方面 。 同 时 ， 将 算法 比 作 一 张 
非常 精确 的 处 方 这 一 非 正式 概念 效果 会 非常 好 。 


























现在 我 们 知道 了 算法 是 什么 ， 但 算法 和 计算 机 有 什么 联系 呢 ? 关 
键 在 于 ， 计 算 机 需要 用 非 第 精确 的 指令 编程 。 因 此 ， 在 能 让 计算 机 为 
我 们 解决 东 个 特定 问题 之 前 ， 我 们 需要 为 那个 问题 开 有 一 个 算法 。 在 
数学 和 物理 学 等 其 他 学 科 中 ， 重 要 的 结果 通常 是 由 一 个 方程 式 获得 
的 。〔 著 名 的 例子 包括 勾 股 定理 a*+b*=c*， 或 爱 因 斯 坦 的 质量 守恒 定 
理 E = mc*。) 相反 ， 计 算 机 科学 的 伟大 思想 通常 是 形容 如 何 解决 一 个 
问题 一 一 当然 ， 是 使 用 一 种 算法 。 因 此 ， 本 书 的 主要 目的 是 ， 解 释 让 
计算 机 成 为 你 的 个 人 精灵 的 东西 一 一 计算 机 每 天 使 用 的 伟大 算法 。 








一 个 伟大 的 算法 由 什么 构成 ? 


这 会 引出 一 个 刁钻 的 问题 ， 什 么 才 是 真正 伟大 的 “算法 ”? 潜在 
的 候选 算法 清单 相当 大 ， 但 我 用 几 条 基本 标准 缩减 了 用 于 本 书 的 候选 
算法 清单 。 第 一 条 ， 也 是 最 重要 的 一 条 标准 是 ， 伟 大 的 算法 要 被 普通 
计算 机 用 户 每 天 用 到 。 第 二 条 重要 的 标准 是 ， 伟 大 的 算法 应 该 能 处 理 
基体 的 现实 问题 ， 如 压缩 一 个 特定 文件 或 通过 一 个 噪声 链接 精确 地 传 














和 输 文件 。 对 于 已 经 了 解 部 分 计算 机 科学 的 读者 而 言 ， 下 面 的 文字 框 解 
释 前 面 两 大 标准 的 部 分 后 果 。 





第 一 条 标准 一 一 要 被 普通 计算 机 用 户 每 天 用 到 一 一 排除 了 主 
要 由 计算 机 专业 人 士 使 用 的 算法 ， 如 编译 器 和 程序 验证 技术 。 第 
二 条 标准 一 一 针对 某 个 特定 问题 的 具体 程序 一 一 排除 了 许多 作为 
计算 机 科学 本 科 诬 程 核心 内 容 的 伟大 算法 ， 如 排序 算法 (快速 排 
序 ) 、 图 形 算法 〈 迪 杰 斯 特 拉 最 短路 径 算法 ) 、 数 据 结构 〈 蛤 希 
表 ) 。 这 些 算法 的 伟大 性 毋庸 置疑 ， 而 且 很 轻易 地 就 满足 了 第 一 
条 标准 ， 因 为 普通 用 户 使 用 的 绝 大 多 数 应 用 程序 都 会 反复 应 用 这 
些 算法 。 但 这 些 算法 太 通 用 了 : 它们 能 用 于 解决 众多 问题 。 在 本 
书 中 ， 我 决定 要 专注 于 解决 特定 问题 的 算法 ， 因 为 对 于 普通 计算 
机 用 户 而 言 ， 这 些 算法 能 让 他 们 拥有 更 清晰 的 动机 。 














一 些 和 本 书 选 取 工 法 有 关 的 额外 细节 。 本 书 读者 无 须 具备 计算 机 科学 的 任何 知识 。 
但 如 果 读 者 具备 计算 机 科学 背景 知识 ， 这 个 文字 框 会 解释 为 何 这 类 读者 之 前 偏好 的 
许多 内 容 没 有 出 现在 本 书 中 。 


第 三 个 标准 是 ， 算 法 主要 和 计算 机 科学 理论 相关 。 这 排除 了 主要 
和 计算 机 硬件 一 一 如 CPU、 监 视 器 以 及 网 络 一 一 有 关 的 技术 。 这 条 标准 
也 减轻 了 对 基础 设施 一 一 如 互联 网 一 一 设计 的 重视 。 为 什么 我 要 着 重 
于 计算 机 科学 理论 ?部 分 原因 是 由 于 公众 对 计算 机 科学 认 知 的 不 平 
衡 : 有 一 种 广泛 的 观点 认为 ， 计 算 机 科学 基本 上 就 是 编程 《如 “ 软 
件 ”) 和 设备 设计 〈 如 “硬件 ”) 。 事 实 上 ， 最 优美 的 计算 机 科学 思 
想 中 有 许多 是 十 分 抽象 的 ， 并 不 属于 以 上 任意 一 类 。 我 希望 通过 者 重 
于 这 些 理论 思想 ， 让 更 多 人 将 计算 机 科学 的 本 质 作为 一 门 知识 学 科 来 
理解 。 











你 也 许 已 经 注意 到 了 ， 我 列 出 的 标准 可 能 会 遗漏 一 些 伟大 的 算 
法 ， 但 却 从 一 开始 残 避免 了 定义 伟大 这 个 极其 抹 烦 的 问题 。 针 对 这 一 





问题 ， 我 依赖 于 目 己 的 直 沉 。 在 本 书 中 说 明 的 每 一 个 算法 中 ， 其 核心 
都 是 一 个 让 整 件 事情 委 效 的 精巧 把 戏 。 对 我 而 言 ， 当 这 个 把 戏 显露 出 
来 时 ， 那 个 “惊叹 ”时 刻 ， 会 让 解释 这 些 算法 成 为 令 人 愉 怖 的 经 历 ， 
我 希望 你 也 能 有 此 感受 。 因 为 我 会 用 到 “把 戏 ” (trick) 这 个 词 很 多 
次 ， 需 要 指出 的 是 ， 我 并 非 指 那 些 曙 务 或 驴 人 的 把 戏 一 一 那 种 孩子 可 
能 会 用 在 弟弟 或 妹妹 身上 的 把 戏 。 相 反 ， 本 书 中 的 把 戏 类 似 于 交易 诀 
穷 或 魔术 : 为 达成 目标 而 采用 的 聪明 技巧 ， 售 则 目标 很 难 或 不 可 能 ; 
成 。 





因此 ， 根 据 直 觉 ， 我 选 出 了 自 认 为 是 计算 机 科学 世界 中 最 精巧 、 
最 神奇 的 把 戏 。 在 英国 数学 家 高 德 菲 。 哈 罗 德 。 哈 代 〈G. H. Hardy) 
的 《一 个 数学 家 的 辨 白 》 (A Mathematician's Apology ) 
中 ， 作 者 试图 向 公众 解释 数学 家 从 事 数学 的 原因 : “ 美 是 第 一 道 测 
试 : 丑陋 的 数学 在 这 个 世界 中 无 永存 之 地 。” 这 道 美的 测试 也 适用 于 
计算 机 科学 中 蕴含 的 理论 思想 。 因 此 ， 选 取 在 本 书 中 出 现 的 算法 的 最 
后 一 条 标准 ， 就 是 哈代 的 一 一 也 许可 以 这 么 称呼 一 一 美的 测试 : 希望 
我 至 少 能 成 功 地 同 读 者 展示 部 分 美 一 一 我 在 每 个 算法 中 感觉 到 的 美 。 


接 下 来 谈 谈 我 选择 展示 的 这 些 算法 。 搜 索引 擎 的 巨大 影响 ， 也 许 
古 算法 技术 影响 所 有 计算 机 用 户 最 明显 的 例子 ， 我 日 然 也 将 部 分 互联 
网 搜索 的 核心 算法 收入 了 本 书 中 。 第 二 章 描述 了 搜索 引擎 如 何 使 用 过 
引 寻 找 与 请 求 的 文件 ， 而 第 三 章 则 解释 了 网 页 排名 〈PageRank) 算法 
一 一 谷歌 公司 为 保证 匹配 度 最 高 的 文件 出 现在 搜索 结果 列表 项 部 的 原 
始 算法 。 























即便 我 们 不 经 常 想 这 件 事情 ， 绝 大 多 数 人 也 能 意识 得 到 ， 为 提供 
出 人 意料 的 强大 搜索 结果 ， 搜 索引 苟 使 用 着 一 些 深 偿 的 计算 机 科学 思 
想 。 相 反 ， 其 他 一 些 伟大 的 算法 也 经 常 被 用 到 ， 但 计算 机 用 户 对 此 其 
至 都 没有 意识 到 。 第 四 章 描 述 的 公 钥 加 密 (public key 
cryptography) 就 是 这 样 一 种 算法 。 用 户 每 次 访问 一 个 安全 网 站 (地 


址 以 https 而 非 http 开 头 ) ， 用 户 都 会 用 到 公 钥 加 密 的 一 个 方面 一 一 也 
就 是 众所周知 的 密 钥 交换 (key exchange ) 一 一 来 展开 一 段 安全 对 
话 。 第 四 章 解 释 了 密 钥 交换 过 程 的 实现 原理 。 








第 五 章 的 主题 是 纠 错 码 (error correcting codes) ， 这 是 我 们 
经 常 使 用 但 却 没 有 意识 到 的 男 一 类 算法 。 事 实 上 ， 纠 错 码 极 有 可 能 是 
有 史 以 来 唯一 一 个 使 用 次 数 最 频繁 的 伟大 算法 。 纠 错 码 可 以 让 计算 机 
识别 并 纠正 在 储存 或 传输 数据 中 出 现 的 错误 ， 而 不 必 依 靠 备 份 或 再 次 
传输 。 纠 错 码 无 处 不 在 : 它们 被 用 于 所 有 硬盘 驱动 器 、 众 多 网 络 传 
输 、CD 和 DVD， 甚 至 还 存在 于 一 些 计 算 机 的 内 存 。 不 过 ， 纠 错 码 的 能 
太 强 了 ， 以 至 于 我 们 意识 不 到 它们 存在 。 








第 六 章 稍 微 有 点 特殊 ， 介 绍 了 图 形 识 别 算 法 (pattern 
recognition algorithm) 。 图 形 识 别 算法 也 能 进入 伟大 的 计算 机 科学 
思想 榜 单 ， 但 却 违 背 了 第 一 条 标准 : 要 被 普通 计算 机 用 户 每 天 用 到 。 
图 形 识别 属于 计算 机 识别 高 度 可 变 信息 一 一 如 笔迹 、 讲 话 和 人 脸 一 一 
的 技术 。 事 实 上 ， 在 21 世 纪 的 第 一 个 十 年 ， 绝 大 多 数 日 弟 计 算 并 没有 
用 到 这 些 技术 。 但 在 2011 年 ， 图 形 识别 的 重要 性 急剧 增 大 : 配备 小 型 
屏幕 键盘 的 移动 设备 需要 自动 纠 错 ， 平 板 设备 必须 识别 手写 输入 ， 而 
且 所 有 这 些 设备 《特别 是 智能 手机 ) 越 来 越 趋 癌 于 语音 操作 。 一 些 网 
站 甚至 使 用 图 形 识别 来 决定 向 用 户 展示 哪 种 广告 。 另 外 ， 我 对 图 形 识 
别 也 有 偏好 ， 因 为 它 是 我 的 研究 领域 。 因 此 ， 第 六 章 描 述 了 3 种 最 有 
趣 、 最 成 功 的 图 形 识 别 技 术 : 最 近邻 分 类 器 (nearest-neighbor 
classifier ) 、 决 策 树 (decision tree) 以 及 神经 网 络 (neural 


network) 。 

















第 七 章 讨 论 了 压缩 算法 。 压 缩 算法 组 成 了 另 一 组 使 计算 机 变 成 我 
们 指 尖 精 郝 的 伟大 思想 。 计 算 机 用 户 的 确 会 时 不 时 地 直接 进行 压缩 ， 
也 许 是 为 了 节省 磁盘 空间 ， 也 许 是 为 了 纵 减 照片 容量 ， 以 便 用 电子 邮 
件 寄 出 。 不 过 在 私 展 下 ， 压 缩 使 用 的 频率 要 更 高 : 我 们 根本 没有 意识 





到 ， 我 们 的 下 载 或 上 传 也 可 以 通过 压缩 以 节省 珊 宽 ， 而 数据 中 心 通 冰 
会 压缩 消费 者 的 数据 以 降低 成 本 。 电 子 邮件 提供 商 提 供给 你 的 5 GB 空 
间 ， 经 压缩 后 很 有 可 能 只 占据 电子 邮件 提供 商 5 GB 空间 的 很 小 一 部 


pA 








第 八 章 讲 到 了 数据 库 中 运用 的 一 些 基 础 算法 。 这 一 章 侧 重 为 实现 
一 致 性 一 一 指 一 个 数据 库 中 的 关系 不 互相 冲突 一 一 而 采用 的 聪明 技 
巧 。 没 有 这 些 精 巧 的 技术 ， 我 们 的 绝 大 部 分 在 线 生 活 (包括 网 络 购物 
以 及 通过 Facebook 之 类 的 社交 网 站 进行 互动 ) 就 会 消亡 于 众多 计算 机 
错误 中 。 这 一 章 解 释 了 一 致 性 真正 的 问题 是 什么 ， 以 及 计算 机 科学 家 
是 如 何 解 决 这 一 问题 的 。 前 提 是 不 牺牲 我 们 所 期 望 的 在 线 系统 拥有 的 


高 效 性 。 





在 第 九 章 ， 我 们 会 了 解 理 论 计算 机 科学 无 可 争议 的 瑰宝 之 一 : 数 
字 签 名 。 乍 看 之 下 ， 用 数字 形式 “ 签 车 ”一 份 电子 文档 似乎 不 可 能 。 
你 也 许 会 想 ， 这 种 签名 必须 由 数字 信息 组 成 ， 而 任何 想 要 伪造 签名 的 
人 都 可 以 毫 不 费力 地 拷贝 这 些 信 息 。 这 一 迟 论 的 解雇 方案， 就 是 计算 
机 科学 取得 的 最 令 人 瞩目 的 成 就 之 一 。 














第 十 章 采 取 了 截然 不 同 的 视角 : 与 其 描述 一 个 已 经 存在 的 伟大 算 
法 ， 我 们 不 如 去 了 解 一 个 假如 存在 则 必然 会 伟大 的 算法 。 不 过 我 们 会 
震惊 地 发 现 ， 这 个 特别 伟大 的 算法 不 可 能 存在 。 这 表明 计算 机 解决 问 
题 的 能 力 存 在 一 些 绝对 极限 ， 而 我 们 将 简单 地 从 哲学 和 生物 学 角度 探 
讨 这 一 结果 的 应 用 。 





第 十 一 章 我 们 会 总 结 伟大 算法 的 一 些 共 性 ， 花 些 时 间 畅 想 未 来 会 
怎样 。 会 有 更 多 伟大 算法 出 现 吗 ? 或 者 说 ， 我 们 已 经 发 现 了 所 有 的 伟 
大 算法 ? 











在 此 ， 不 得 不 提前 说 一 下 本 书 的 风格 。 任 何 科 普 作 品 都 必须 清楚 
地 告知 来 源 ， 但 引用 会 破坏 文本 的 流畅 性 ， 并 让 读者 产生 学 术 的 感 


党 。 由 于 可 读 性 和 易 读 性 是 本 书 的 首要 目标 ， 所 以 本 书 正文 不 会 出 现 
引用 。 不 过 ， 我 清楚 地 记录 了 所 有 来 源 ， 并 在 本 书 末尾 的 “来 源 和 延 
伸 阅 读 ” 板 块 中 列 出 ， 并 时 不 时 附 上 拓展 评论 。 这 个 板块 还 列 出 了 一 
些 额外 材料 ， 以 便 感 兴趣 的 读者 能 去 寻找 更 多 和 计算 机 科学 中 伟大 算 
法 有 关 的 东西 。 


既然 提前 说 了 本 书 的 风格 ， 我 还 要 谈 谈 本 书 书 名 中 采取 的 少量 诗 
化 。 本 书 无 疑 是 章 命 性 的 ， 但 真 的 有 九 种 算法 吗 ? 这 一 说 法 值得 探 
讨 ， 因 为 要 取决 于 有 多 少 算法 被 算 作 单 独 算法 。 让 我 们 来 算 下 “ 九 ” 
征 怎么 来 的 。 除 了 前 言 和 结论 两 章 外 ， 本 书 还 有 九 章 ， 每 一 章 都 介绍 
了 对 一 种 计算 任务 产生 间 命 性 影 啊 的 算法 ， 例 如 加 密 、 压 纵 、 图 形 识 
别 。 因 此 ， 书 名 中 的 “ 九 大 算法 ”实际 上 指 的 是 处 理 这 九 种 任务 的 九 
类 算法 。 




















为 什么 我 们 要 关注 这 些 伟大 的 算法 ? 





希望 对 这 些 迷 人 思想 的 快速 总 结 能 让 你 渴望 深入 了 解 它们 的 运行 
方式 。 不 过 ， 也 许 你 仍然 在 思考 : 本 书 的 终极 目标 是 什么 ? 让 我 简短 
地 说 下 本 书 的 真正 目的 。 这 本 书 绝 不 是 一 本 问答 式 操作 手册 。 在 读 完 
本 书后 ， 你 不 会 成 为 计算 机 安全 方面 的 专家 ， 也 不 会 成 为 人 工 智能 或 
其 他 领域 的 专家 。 你 也 许 能 学 到 一 些 有 用 的 技能 ， 这 倒是 真 的 。 比 
如 : 你 会 对 如 何 检查 “安全 ”网 站 凭证 以 及 “已 签名 ”软件 包 了 解 更 
多 ;你 能 针对 不 同 任务 在 有 损 和 无 损 压 缩 之 间 做 出 明智 选择 ， 而 且 通 
过 理解 搜索 引擎 索引 和 排名 技术 的 东 些 方面 ， 你 能 更 高 效 地 使 用 搜索 


引擎。 





在 读 完 本 书后 ， 你 不 会 成 为 一 名 更 加 熟练 的 计算 机 用 户 。 但 你 会 
更 加 珍视 每 天 在 所 有 计算 设备 上 不 停 使 用 的 思想 的 美 。 





为 什么 这 是 件 好 事 ? 我 用 类 比 的 方式 来 说 明 。 我 肯定 不 是 一 位 天 
文学 专家 一 一 事实 上 ， 我 在 这 个 项 目 上 相当 无 知 ， 我 想 知道 更 多 。 但 
每 当 我 注视 夜空 ， 我 知道 的 少量 天 文学 知识 增强 了 我 对 这 一 经 验 的 享 
受 。 有 时， 我 对 自己 看 到 事物 的 理解 ， 让 我 产生 了 一 种 满足 和 惊奇 的 
感觉 。 和 希望 在 读 完 本 书后 ， 你 在 使 用 计算 机 时 也 能 经 利 获 得 同样 的 请 
足 和 惊奇 之 感 ， 这 也 是 我 妥 切 的 希望 。 你 将 真正 珍视 我 们 时 代 最 帝 
见 、 最 神秘 的 黑 盒子 :你 的 个 人 电脑 ， 你 指 尖 的 精灵 。 


第 二 革 ”搜索 引擎 案 引 一 一 在 世界 上 最 大 
的 草 埃 中 寻 儿 


哈 克 ， 在 咱 俩 站 着 的 地 方 的 下 面 ， 你 拿 一 根 
钓鱼 竿 就 可 以 触 到 我 钻 出 来 的 那个 洞 。 区 关 
你 能 不 能 找到 。 


一 一 马克 。 吐 温 ， 

《汤姆 。 索 亚 历 险 记 》 (Tom Sawyer ) 
搜索 引擎 对 我 们 的 生活 产生 了 深远 影响 。 绝 大 多 数 人 每 天 都 进行 
多 次 搜索 查询 ， 但 我 们 极 少 会 停 下 来 思考 这 个 令 人 惊叹 的 工具 是 如 何 
舌 效 的 。 搜 索引 擎 提供 的 海量 信息 以 及 搜索 结果 的 速度 与 质量 变 得 如 
此 平常 ， 如 果 我 们 搜索 的 问题 没有 在 几 秒 内 得 到 回答 ， 我 们 就 会 困 
惑 。 我 们 倾向 于 忘记 ， 每 一 个 成 功 的 搜索 引擎 都 是 从 世界 上 最 大 的 草 

埃 一 一 万 维 网 一 一 寻 针 。 








事实 上 ， 搜 索引 擎 提供 的 超级 服务 ， 不 仅仅 是 针对 搜索 抛 出 一 大 
堆 花 哨 技术 的 结果 。 的 确 ， 每 个 大 型 搜索 引擎 公司 都 运营 着 一 个 由 无 
数 数据 中 心 组 成 的 国际 网 络 ， 其 中 包括 数 以 生计 的 服务 器 计算 机 和 先 
进 的 网 络 设备 。 但 没有 聪明 的 算法 来 组 织 和 检索 我 们 请 求 的 信息 ， 所 
有 这 些 硬件 都 会 变 得 毫 无 用 处 。 因 此 ， 在 这 一 章 和 下 一 章 ， 我 们 将 探 
究 这 样 一 些 算法 瑰宝 一 一 每 次 在 进行 网 络 搜索 时 ， 我 们 都 会 用 到 这 些 
算法 。 我 们 很 快 就 会 了 解 到 ， 搜 索引 擎 的 两 大 主要 任务 就 是 匹配 
Cnatching) 和 排名 (ranking) 。 这 一 章 将 讲述 一 种 聪明 的 匹配 技 


术 : 元 词 把 戏 (metaword trick) 。 在 下 一 章 ， 我 们 将 转 而 讨论 排名 
任务 ， 审 视 谷 歌 公司 著名 的 网 页 排名 算法 。 


由 匹配 和 排名 


当 你 发 起 一 次 网 络 搜索 得 询 时 会 发 生 什 么 ? 以 这 样 一 种 高 屋 建 领 
的 视角 开始 会 很 有 帮助 。 我 已 经 说 过 ， 搜 索 有 两 个 主要 阶段 : 匹配 和 
排名 。 在 实际 中 ， 搜 索引 擎 将 匹配 和 排名 组 合成 一 个 流程 以 实现 一 致 
性 。 但 这 两 个 阶段 在 概念 上 是 独立 的 ， 因 此 我 们 会 假设 在 排名 开始 
前 ， 匹 配 已 经 完成 。 上 图 就 给 出 了 一 个 例子 ， 图 中 碍 询 的 是 “London 
bus timetable” 【伦敦 公共 汽车 时 刻 表 ) ， 而 匹配 阶段 则 回答 “哪个 








网 页 与 我 的 查询 匹配 ”这 个 问题 一 一 在 这 个 例子 中 就 是 所 有 提 到 
“London bus timetable” 的 网 页 。 
匹配 后 的 网 页 排名 后 的 网 页 





网 络 搜索 的 两 个 阶段 : 匹配 和 排名 。 在 第 一 阶段 (匹配 ) 后 可 能 会 出 现 数 千 或 数 百 
万 个 匹配 结果 ， 这 些 结果 必须 按照 相关 度 在 第 二 阶段 〈 排 名 ) 进行 排序 。 





但 现实 搜索 引擎 中 的 许多 得 询 都 有 数理 、 数 千 力 至 数目 万 个 “ 命 
中 ”。 而 搜索 引擎 用 户 通常 只 喜欢 碍 看 儿 个 结果 ， 最 多 5 个 或 10 个 。 因 
此 ， 搜 索引 擎 必须 从 大 量 命中 里 挑 出 最 好 的 几 个 。 一 个 好 的 搜索 引擎 
不 仅仅 会 挑 出 最 好 的 几 个 命中 ， 而 且 会 以 最 有 用 的 顺序 显示 它们 一 一 
最 匹配 的 页 面 排 在 第 一 ， 然 后 是 匹配 度 排 名 第 二 的 页 面 ， 依 此 类 推 。 














以 正确 顺序 挑选 出 最 好 的 几 个 命中 被 称 为 “排名 ”。 排 名 是 关键 
的 第 二 个 阶段 ， 紧 随 最 开始 的 匹配 阶段 。 在 搜索 行业 的 残酷 世界 中 ， 
搜索 引擎 的 生死 由 其 排名 系统 的 质量 决定 。2002 年 ， 美 国 前 三 大 搜索 
引擎 的 市 场 份额 基本 相当 ， 谷 歌 、 雅 虎 和 MSN 在 美国 的 市 场 份额 都 在 
30% 以 下 。[MSN 随 后 被 重新 包装 成 Live Search， 之 后 又 
被 命名 为 必 应 (Bing) 。] 之 后 几 年 ， 谷 歌 的 市 场 份额 迅速 扩 
大 ， 同 时 将 雅虎 和 MSN 的 市 场 份额 打压 到 了 20% 以 下 。 人 们 普遍 认为 ， 
谷歌 迅速 上 升 为 搜索 行业 冠军 是 得 益 于 其 排名 算法 。 因 此 ， 毫 不 夸张 
地 说 ， 搜 索引 擎 的 生死 由 其 排名 系统 的 质量 决定 。 不 过 ， 正 如 我 已 经 
提 到 的 ， 我 们 将 在 下 一 章 探 讨 排 名 算法 。 至 于 现在 ， 让 我 们 专注 于 匹 
配 阶 段 吧 。 


AltaVista: 第 一 个 互联 网 级 别 的 匹配 算法 


搜索 引擎 匹配 算法 的 故事 从 哪里 开始 ? 一 个 很 显然 却 错误 的 回答 
会 说 从 谷歌 一 一 21 世 纪 初 期 最 伟大 的 技术 成 功 故事 一 一 开始 。 事 实 
上 ， 和 谷歌 最 初 只 是 两 位 斯 坦 福 大 学 研究 生 的 博士 学 位 项 目 ， 这 个 故事 
不 仅 温暖 人 心 ， 而 且 令 人 印象 深刻 。 拉 里 。 佩 奇 〈Larry Page) 和 谢 
尔 盖 。 布 林 〈Sergey Brin) 在 1998 年 组 装 了 一 堆 计算 机 硬件 来 运行 一 
种 新 的 搜索 引擎 。 不 到 10 年 ， 他 们 的 公司 成 为 了 互联 网 时 代 崛 起 的 最 
伟大 的 数字 巨人 。 


不 过 ， 互 联网 搜索 的 想法 已 经 存在 很 多 年 了 。 最 早 的 商业 应 用 是 
Infoseek 和 Lycos (两 者 都 于 1994 年 推出 ) ， 以 及 于 1995 年 推出 搜索 引 
擎 的 AltaVista。20 世 纪 90 年 代 中 期 的 几 年 中 ，AltaVista 是 搜索 引擎 
的 王者 。 当 时 我 还 是 一 名 计算 机 科学 研究 生 ， 我 清楚 地 记得 自己 惊叹 
于 AltaVista 搜 索 结果 的 成 熟 度 。 有 史 以 来 第 一 次 ， 有 一 个 搜索 引擎 能 
完全 索引 互联 网 上 每 一 个 页 面 的 全 部 文本 。 更 可 贵 的 是 ， 有 上 有 眼 间 束 能 




















返回 结果 。 要 继续 理解 这 个 令 人 回味 的 技术 突破 ， 我 们 要 从 接触 一 个 
吾 老 的 《〈 蹇 不 夸张 ) 概念 一 一 索引 一 一 开始 。 


用 二老 的 过 


索引 的 概念 是 所 有 搜索 引擎 背后 最 基础 的 思想 。 但 索引 并 非 由 搜 
索引 擎 发 明 : 事实 上 ， 索 引 的 思想 几乎 和 书写 本 身 一 样 古老 。 比 如 ， 
人 类 学 家 发 现 了 一 座 具 有 五 千年 历史 的 巴比伦 神 庙 图 书馆 ， 里 面 按 学 
科 对 枢 形 文字 泥 版 进行 了 分 类 。 因 此 ， 索 引 可 以 称 得 上 是 计算 机 科学 
中 最 古老 的 有 用 思想 。 


如 今 ，“ 索 引 ” 这 个 词 通常 指 参考 书 最 后 的 一 个 板块 。 你 可 能 想 
要 查看 的 所 有 概念 都 以 固定 顺序 〈 通 常 是 按 字 母 排 序 ) 列 出 ， 每 一 个 
概念 下 都 列 出 了 这 个 概念 出 现 的 位 置 〈 通 常 是 页 码 ) 。 因 此 ， 一 本 和 
动物 有 关 的 书 也 许 会 有 一 个 像 “cheetah 124，156” 的 索引 项 。 这 个 
索引 项 意味 着 “cheetah”【 猪 豹 ) 这 个 词 在 第 124 页 和 第 156 页 出 现 
过 。 让 你 做 个 相当 有 趣 的 练习 ， 你 可 以 在 本 书 的 索引 中 查询 
“index” 这 个 词 。 你 应 该 可 以 找到 这 一 页 。) 


猫 蹲 在 垫子 上 人 狗 站 在 垫子 上 3 | ” 猫 站 起 ， 狗 足下 


一 个 假想 的 万 维 网 ， 由 编号 为 1、2 和 3 的 三 个 页 面 组 成 。 
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一 个 用 页 码 表示 的 简单 索引 。 





互联 网 搜索 引擎 的 索引 和 一 本 书 的 索引 有 着 相同 的 工作 原理 。 书 
“页 ”现在 成 了 万 维 网 上 的 网 页 ， 而 搜索 引擎 则 给 互联 网 上 的 每 个 网 
页 分 配 了 一 个 不 同 的 页 码 。 (是 的 ， 互 联网 上 虽然 有 很 多 网 页 一 一 最 
新 的 数据 显示 有 成 百 上 千 亿 个 一 一 但 计算 机 很 擅长 处 理 大 数字 。) 上 
图 给 出 了 一 个 会 让 整个 过 程 更 具体 的 例子 。 想 象 万 维 网 只 由 上 面 显 示 
的 3 个 短 网 页 组 成 ， 它 们 分 别 分 配 到 了 页 码 1、2 和 3。 








计算 机 可 以 为 这 三 个 网 页 创建 一 个 索引 : 首先 要 为 出 现在 任 一 页 
面 上 的 所 有 单词 创建 一 个 列表 ， 然 后 按 字 和 母 表 顺序 整理 这 张 列表 。 我 
们 可 以 将 结果 称 为 单词 表 (word list) 一 一 在 这 个 例子 中 是 “a、 
cat、dog、mat、on、sat、stood、the、vwhile”。 然 后 计算 机 会 一 个 
单词 一 个 单词 地 搜 志 所 有 页 面 。 计 算 机 会 标注 每 个 单词 所 在 的 页 码 ， 
然后 再 标注 单词 表 中 下 一 个 单词 的 位 置 。 最 终结 果 显 示 在 上 图 中 。 比 
如 ， 你 可 以 立即 看 到 单词 “cat” 出 现在 第 1 页 和 第 3 页 ， 却 不 在 第 2 
页 。 而 单词 “while” 只 出 现在 第 3 页 。 











通过 这 种 简单 方法 ， 搜 索引 擎 就 已 经 能 回答 许多 简单 的 查询 。 比 
如 ， 假 设 你 输入 查询 词 “cat”， 搜 索引 擎 能 很 快 跳 转 到 单词 表 中 的 
“cat” 项 。《〈 因 为 字母 表 是 按 字母 排序 的 ， 计 算 机 能 很 快 找到 任何 
项 ， 束 像 我 们 可 以 很 快 找到 词典 中 的 一 个 单词 一 样 。) 一 旦 计算 机 找 
到 “cat” 项 ， 搜 索引 擎 束 能 给 出 该 项 的 页 面 列表 一 一 在 这 个 例子 中 就 
古 第 1 页 和 第 3 页 。 现 代 搜 索引 擎 对 结果 的 组 织 很 合理 ， 只 摘 取 了 返回 
页 面 的 少许 片段 ， 不 过 ， 我 们 基本 上 会 忽略 这 样 的 细节 ， 将 精力 集中 
在 搜索 引擎 如 何 知 道 页 面 “ 符 合 ” 用 户 输 入 的 查询 上 。 














再 举 另 一 个 非常 简单 的 例子 ， 让 我 们 来 检查 一 下 查询 “dog” 的 步 
骤 。 在 这 个 例子 中 ， 搜 索引 擎 很 快 会 找到 “dog” 项 ， 并 返回 页 码 2 和 
3。 如 果 查 询 多 个 单词 ， 如 “cat dog” 呢 ?这 表示 你 正在 寻找 同时 包 
含 单 词 “cat” 和 “dog” 的 页 面 。 通 过 已 有 的 索引 ， 搜 索引 擎 也 能 很 
容易 查 到 结果 。 搜 索引 擎 首先 会 单独 查找 这 两 个 单词 ， 找 出 它们 分 别 
在 哪些 页 面 中 。 结 果 是 “cat” 在 第 1 页 和 第 3 页 ，“dog” 在 第 2 页 和 第 
3 页 。 之 后 ， 计 算 机 能 快速 扫描 这 两 个 命中 列表 ， 寻 找 同时 出 现在 两 个 
列表 中 的 页 码 。 在 这 个 例子 中 ， 第 1 页 和 第 2 页 被 排除 了 ， 但 第 3 页 同时 
出 现在 两 个 列表 中 ， 因 此 最 终 答案 就 是 第 3 页 上 的 一 次 单独 命中 。 与 之 
极其 相似 的 一 个 策略 也 适用 于 超过 两 个 单词 的 查询 。 比 如 ， 查 询 “cat 
the sat” 会 返回 第 1 页 和 第 3 页 为 命中 ， 因 为 它们 是 “cat” (1， 
3) 、“the” (1; 2，3) 和 “sat” (1，3) 这 个 列表 的 通用 元 素 。 























就 目前 来 看 ， 搭 建 一 个 搜索 引擎 听 起 来 相当 容易 。 最 简单 的 索引 
技术 似乎 运行 得 很 好 ， 即 便 对 多 词 查询 也 是 如 此 。 不 幸 的 是 ， 这 种 简 
单方 法 完全 不 能 满足 现代 搜索 引擎 的 需要 。 出 现 这 种 情况 的 原因 有 几 
个 ， 不 过 现在 我 们 只 会 关注 其 中 之 一 : 如 何 做 短语 查询 。 短 语 查 询 是 
指 寻 找 一 个 确切 短语 的 查询 ， 而 非 竣 巧 一 些 单词 出 现在 页 面 中 的 某 些 
地 方 。 比 如 ，“cat sat” 查 询 和 cat sat 查 询 的 意义 截然 不 同 。 由 
cat sat 碍 询 寻找 的 是 在 任何 位 置 包含 “cat” 和 “sat” 两 个 单词 的 页 
面 ， 不 考虑 顺序 ， 而 “cat sat” 查 询 寻 找 的 是 包含 单词 “cat” 之 后 
紧 跟 单词 “sat” 的 页 面 。 在 上 面 那 个 由 三 个 网 页 组 成 的 简单 例子 中 ， 
cat sat 查 询 结 果 命 中 第 1 页 和 第 3 页 ， 但 “cat sat” 查 询 只 返回 一 次 
命中 ， 就 在 第 1 页 。 




















一 个 搜索 引擎 如 何 才能 有 效 地 进行 一 次 短语 查询 呢 ? 继续 说 “cat 
sat” 这 个 例子 。 第 一 步 和 平常 的 多 词 查询 cat sat 一 样 ， 从 单词 表 中 
获取 每 个 单词 出 现 的 网 页 列表 ， 在 这 个 例子 中 就 是 出 现在 第 1 页 和 第 3 
页 的 “cat”; “sat” 也 一 样 ， 出 现在 第 1 页 和 第 3 页 。 不 过 搜索 引擎 
到 这 里 就 卡 住 了 。 搜 索引 擎 很 确切 地 知道 两 个 单词 同时 出 现在 页 面 1 和 








页 面 3 上 ， 但 没有 办 法 来 分 辨 这 些 单词 是 售 以 正确 的 顺序 紧 换 着 彼 此 出 
现 。 你 也 许 会 想 ， 搜 索引 擎 可 以 返回 查看 原 网 页 ， 看 这 个 短语 是 人 否 存 
在 。 这 的 确 是 个 可 能 的 解决 方案 ， 但 效率 却 非常 非常 低 。 这 需要 过 历 
每 一 个 可 能 包含 这 个 短语 的 网 页 的 全 部 内 容 ， 而 且 可 能 有 海量 这 样 的 
网 页 。 记 住 ， 我 们 在 这 里 打交道 的 是 一 个 只 由 三 个 页 面 组 成 的 极 小 的 
例子 ， 真 正 的 搜索 引擎 必须 从 数 百 亿 个 网 页 中 找 出 正确 的 结果 。 


te 


这 一 问题 的 解决 方案 是 让 现代 搜索 引擎 运行 恨 好 的 首 个 、 真 正 精 
巧 的 思想 : 索引 应 该 不 单单 存储 页 码 ， 还 要 存储 页 面 内 的 位 置 。 这 些 
位 置 并 不 神秘 : 它们 只 是 代表 了 一 个 词 在 页 面 中 的 位 置 。 第 3 个 词 的 位 
置 是 3， 第 29 个 词 的 位 置 是 29， 依 此 类 推 。 例 子 中 三 个 页 面 组 成 的 数据 
集 如 下 页 图 所 示 ， 还 加 上 了 词 位 置 。 图 下 面 的 是 索引 一 一 由 存储 页 码 
和 词 位 置 中 得 出 的 结果 组 成 。 我 们 称 这 种 创建 索引 的 方法 为 “ 词 位 置 
把 戏 ” (word location trick) 。 举 几 个 例子 ， 以 确保 大 家 理解 了 词 
位 置 把 戏 。 索 引 的 第 一 行 是 “a3-5. ”。 这 意味 着 词 “a” 只 在 数据 集 
中 出 现 过 一 次 ， 是 第 3 页 的 第 5 个 单词 。 索 引 中 最 长 的 一 行 是 “the 1-1 
1-5 2-1 2-5 3-1”。 这 一 行 可 以 让 你 知道 ， 这 个 数据 集中 所 有 出 现 单 
词 “the” 的 具体 位 置 。 它 在 第 1 页 出 现 过 两 次 (位 置 1/ 和 5) ， 第 2 页 出 
现 过 两 次 (位 置 1/ 和 5) ， 第 3 页 出 现 过 1 次 (位 置 1)。 















































你 还 记得 介绍 页 内 词 位 置 的 目的 吗 ? 是 为 了 解决 如 何 有 效 地 进行 
短语 查询 这 个 问题 。 让 我 们 来 看 看 如 何 用 这 个 新 索引 做 一 次 短语 但 
询 。 还 是 和 前 面 一 样 ， 查 询 短 语 “cat sat”。 第 一 步 和 使 用 旧 索 引 时 
一 样 : 从 索引 中 提取 单个 词 的 位 置 ，“cat” 的 位 置 是 1-2、3-2， 
“sat” 的 位 置 是 1-3、3-7。 到 这 里 还 好 : 我 们 知道 短语 查询 “cat 
sat” 唯 一 可 能 的 命中 就 是 在 第 1 页 和 第 3 页 。 但 与 之 前 一 样 ， 我 们 还 不 
确定 相同 的 短语 是 否 出 现在 了 这 些 页 面 中 一 一 有 可 能 这 两 个 单词 的 确 














出 现 了 ， 但 并 不 是 以 正确 的 顺序 彼此 相 邻 。 幸 运 的 是 ， 从 位 置信 息 中 
确认 这 一 点 很 容易 。 首 先 从 第 1 页 开始 。 根 据 索 引信 息 ， 我 们 知道 
“cat” 出 现在 第 1 页 的 位 置 2 (这 就 是 1-2 的 含义 ) 。 我 们 还 知道 
“sat” 出 现在 第 1 页 的 位 置 3 (这 是 1-3 的 含义 ) 。 但 如 果 “cat” 在 位 
置 2，“sat” 在 位 置 ?， 我 们 就 知道 “sat” 紧 挨 着 出 现在 “cat” 之 后 
(因为 2 之 后 立即 就 是 3) 一 一 因此 我 们 寻找 的 整个 短语 “cat sat” 必 
定 出 现在 第 1 页 ， 并 从 位 置 2 开 始 。 
和 辣 F 














a 3-5 

cat 1-2 3-2 

dog 2-2 3-6 

mat 1-6 2-6 

on 1-4 2-4 

sat 1-3 3-7 

stood 2-3 3-3 

the 1-1 1-5 2-1 2-5 3-1 
while 3-4 


底 图 : 同时 包含 页 码 和 页 内 词 位 置 的 新 索引 。 
顶 图 : 3 个 网 页 加 上 了 页 内 词 位 置 。 





我 知道 自己 在 这 点 上 谈 得 很 多 ， 但 巨细 无 遗 、 从 头 至 尾 地 研究 这 
个 例子 ， 是 为 了 让 读者 真正 地 理解 为 了 获得 答案 究竟 使 用 了 哪些 信 
息 。 注 意 ， 我 们 已 经 为 短语 “cat sat” 找 到 了 一 次 命中 ， 仅 仅 是 通过 
查看 索引 信息 (“cat” 的 位 置 1-2、3-2，“sat” 的 位 置 1-3、3- 
7) ， 而 非 原始 网 页 。 这 很 关键 ， 因 为 我 们 只 需 查 看 索引 中 的 两 个 项 ， 
而 非 遍 历 所 有 可 能 包含 命中 的 页 面 一 一 而 在 进行 真正 短语 查询 的 真正 
的 搜索 引擎 中 ， 可 能 有 数 百 万 个 这 样 的 页 面 。 总 之 : 通过 在 索引 中 加 
入 页 内 词 位 置 ， 我 们 只 需 通过 查看 索引 中 的 几 行 ， 就 能 找到 一 次 短语 




















查询 命中 ， 而 非 近 历 海量 页 面 。 这 个 简单 的 词 位 置 把 戏 是 让 搜索 引擎 
奏效 的 关键 之 一 。 





事实 上 ， 我 还 没 讲 完 “cat sat” 这 个 例子 。 我 们 完成 了 对 第 1 页 
言 息 的 处 理 ， 但 第 3 页 还 没 处 理 。 对 第 3 页 的 推理 和 第 1 页 的 处 理 方式 很 
相似 : “cat” 出 现在 第 3 页 的 位 置 2，“sat” 出 现在 位 置 7， 因 此 它们 
不 可 能 相 邻 一 一 因为 紧 跟 2 之 后 出 现 的 不 是 7。 这 样 我 们 束 知 道 ， 第 3 页 
并 不 是 短语 查询 “cat sat” 的 命中 ， 尽 管 它 是 多 词 查询 cat sat 的 命 
中 。 














顺便 说 一 下 ， 词 位 置 把 戏 不 仅仅 对 短语 查询 重要 。 举 个 例子 ， 思 
考 一 下 寻找 相 邻 单词 的 问题 。 在 一 些 搜索 引擎 中 ， 用 户 可 以 在 查询 中 
使 用 “NEAR” 关 键 词 做 到 这 一 点 。 事 实 上 ，AltaVista 搜 索引 擎 在 早期 
就 提供 了 这 一 功能 ， 在 本 书写 作 时 仍然 提供 。 作 为 一 个 特殊 的 例子 ， 
假设 在 一 些 特 别 的 搜索 引 敬 中， 查询 cat NEAR dog 会 找到 “dog” 前 
后 五 个 位 置 之 内 出 现 “cat” 的 页 面 。 我 们 如 何 才能 在 数据 集中 有 效 地 
执行 这 种 查询 ? 使 用 词 位 置 ， 会 使 得 询 变 得 很 容易 。“cat” 的 索引 项 
是 1~2、-3-2,， 而 “dag” 的 索引 项 是 时 2、3-65 可 以 立刻 看 出 ,第 3 页 
是 唯一 可 能 的 命中 。 而 在 第 3 页 ，“cat” 出 现在 位 置 2，“dog” 出 现 
在 位 置 6。 因 此 这 两 个 词 之 间 的 距离 是 6 一 2， 结 果 是 4。 因 此 ，“cat” 
的 确 出 现在 “dog” 前 后 五 个 位 置 之 内 ， 而 第 3 页 则 是 查询 cat NEAR 
dog 的 命中 。 和 前 面 一 样 ， 请 注意 这 次 查询 的 执行 是 多 么 高 效 : 无 须 裔 
历任 何 网 页 的 实际 内 容 一 一 相反 ， 只 参考 了 索引 中 的 两 个 项 。 





























不 过 ， 在 实际 中 ，NEAR 碍 询 对 搜索 引擎 用 户 并 不 非 党 重要。 几乎 
没 人 使 用 NEAR 人 查询 ， 绝 大 多 数 主要 搜索 引擎 甚至 不 支持 它们 。 尺 管 如 
此 ， 能 执行 NEAR 人 查询 的 能 力 实际 上 对 现实 中 的 搜索 引擎 至 关 重 要 。 这 
是 因为 搜索 引擎 不 断 地 在 后 台 执 行 NEAR 人 查询 。 要 理解 其 中 的 原因 ， 我 
们 首先 不 得 不 研究 现代 搜索 引擎 面临 的 主要 问题 之 一 : 排名 的 问题 。 


排名 和 和 邻 度 


到 目前 为 止 ， 我们 一 直 专 注 于 匹配 阶段 :为 一 个 给 出 的 查询 高 效 
地 找 出 所 有 命中 的 问题 。 不 过 正如 之 前 强调 的 ， 第 二 个 阶段 “排名 ” 
对 于 一 个 高 质量 的 搜索 引擎 是 绝对 必 不 可 少 的 : 这 是 挑选 出 前 几 个 命 
中 并 展示 给 用 户 的 阶段 。 











让 我 们 更 细致 地 来 检验 排名 的 概念 。 一 个 网 页 的 “排名 ”究竟 取 
决 于 什么 ? 真正 的 问题 不 是 “这 个 网 页 和 碍 询 匹 配 吗 ”， 而 是 “这 个 
网 页 和 查询 相关 吗 ”。 计 算 机 科学 家 们 使 用 “相关 度 ” (relevance) 
这 个 术语 来 形容 一 个 结果 网 页 和 某 个 特定 查询 有 多 么 相配 或 多 么 有 
用 。 








举 个 具体 的 例子 ， 假 设 你 对 导致 症 疾 的 原因 感 兴 趣 ， 并 在 一 个 搜 
索引 擎 中 输入 查询 malaria cause (导致 症 疾 ) 。 简 化 考虑 ， 假 设 搜 索 
引擎 对 这 一 查询 只 有 两 个 命中 一 一 下 网 显示 的 两 个 网 页 。 现 在 来 看 看 
这 两 个 网 页 。 作 为 人 类 ， 你 很 快 就 知道 第 1 页 和 症 疾 起 因 有 关 ， 而 第 2 
页 似乎 是 对 刚刚 发 生 的 一 些 军事 行动 的 描述 ， 只 不 过 恰巧 使 用 了 
“cause” 和 “malaria” 这 两 个 词 。 因 此 ， 和 第 2 页 相 比 ， 第 1 页 无 疑 
和 查询 malaria cause 更 具 相 关 性 。 可 计算 机 不 是 人 ， 让 计算 机 理解 这 
两 页 的 主题 也 很 难 ， 似 乎 不 可 能 让 搜索 引擎 正确 地 对 这 两 个 命中 进行 
排名 。 














also 1-19 
cause 1-6 2-2 
malaria 1-8 2-19 


whom 2-15 


顶 图 : 两 个 提 及 症 疾 的 样本 网 页 。 
底 图 : 从 上 方 两 个 网 页 中 创建 的 索引 的 一 部 分 。 


不 过 ， 事 实 上 ， 有 一 种 很 简单 的 方法 让 这 个 例子 中 的 排名 正确 。 
查询 词 彼此 相 邻 的 网 页 比 那 些 查询 词 相 距 很 远 的 网 页 相关 度 更 高 。 在 
症 疾 这 个 例子 中 ，“malaria” 和 “cause” 在 第 1 页 中 仪 相 距 1 个 词 ， 
而 在 第 2 页 中 则 相距 17 个 词 。( 记 住 ， 搜 索引 擎 只 通过 查看 索引 项 就 能 
高 效 地 发 现 这 一 点 ， 无 须 返 回 查 看 网 页 。) 因此 ， 尽 管 计 算 机 并 不 真 
正 地 “理解 ”查询 的 主题 ， 它 也 能 猜测 网 页 1 比 网 页 2 更 具 相 关 性 ， 
为 网 页 1 查询 词 之 间 的 距离 要 比 网 页 2 更 近 ，。 














总 而 言 之 ， 尽 管 人 们 不 经 常 使 用 NEAR 查 询 ， 搜 索引 擎 也 在 不 断 地 
使 用 和 和 邻 度 有 关 的 信息 ， 提 高 搜索 排名 。 而 它们 能 高 效 地 做 到 这 点 的 
原因 则 是 ， 它 们 使 用 词 位 置 把 戏 。 








一 个 网 页 范例 集 ， 每 个 网 页 都 有 一 个 标题 和 一 段 正 文 。 


我 们 已 经 了 解 到 ， 早 在 距 今 5 000 年 以 前 ， 巴 比 伦 人 就 开始 使 用 索 
引 。 而 词 定 位 把 戏 也 不 是 由 搜索 引擎 发 明 的 : 这 是 互联 网 出 现 以 前 ， 
另 一 种 信息 检索 中 用 到 的 著名 技术 。 不 过 ， 在 下 一 部 分 ， 我 们 将 了 解 
一 个 看 起 来 的 确 是 由 搜索 引擎 设计 者 发 明 的 新 把 戏 : 元 词 把 戏 
(metaword trick) 。 对 这 一 把 戏 和 众多 相关 思想 的 精巧 运用 ， 使 
AltaVista 搜 索引 擎 在 20 世 纪 90 年 代 晚 期 迅速 成 为 搜索 行业 的 领头 羊 。 


Dae 


到 目前 为 止 ， 我 们 一 直 都 在 使 用 极其 简单 的 网 页 示例 。 然 而 ， 绝 
大 多 数 网 页 拥有 众多 结构 ， 包 括 标题 、 标 头 、 链 接 和 图 片 ， 可 我 们 还 
一 直 认 为 网 页 只 是 普通 的 词 表 。 接 下 来 ， 我 们 将 探索 搜索 引擎 如 何 处 
理 网 页 中 的 结构 。 不 过 ， 为 了 尽 可 能 保持 人 简单， 我 们 只 会 引入 一 层 结 
构 ， 网 页 的 顶部 会 有 一 个 标题 ， 之 后 是 页 面 的 正文 。 上 图 显示 了 我 们 
熟悉 的 三 页 示例 ， 并 附加 了 一 些 标题 。 








实际 上 ， 要 像 搜 索引 擎 一 样 分 析 网 页 结构 ， 我 们 需要 了 解 更 多 编 
写 网 页 的 知识 。 网 页 是 由 一 种 特殊 语言 编写 的 ， 以 便 网 络 浏览 器 能 
很 好 的 格式 展示 它们 。 编写 网 页 最 常用 的 语言 被 称 为 HTML， 不 过 
HTML 的 细节 对 本 次 讨论 不 重要 。) 标 涉 、 标 题 、 链 接 、 图 片 等 格式 化 
结构 是 用 被 称 为 元 词 的 特殊 单词 编写 的 。 比 如 ， 网 页 标题 开始 使 用 的 
元 词 也 许 是 <titleStart>， 而 结束 这 个 标题 的 元 词 可 能 是 
《titleEnd> 。 类 似 的 ， 网 页 正文 可 能 是 以 《bodyStart》 开 始 ， 以 
《bodyEnd》 结 束 。 不 要 纠结 于 “<”、“>” 这 些 符 号 。 它 们 出 现在 绝 大 
多 数 计算 机 键盘 上 ， 人 们 通常 只 知道 这 些 符号 的 数学 意义 是 “大 于 ” 
和 “小 于 ”。 不 过 在 这 里 ， 这 些 符号 和 数学 没有 任何 关系 ， 只 是 方便 
的 象征 ， 将 这 些 元 词 和 网 页 中 的 正常 单词 区 分 开 来 。 














1 | <titleStart> my <titleStart> my 
‘cat dog <titleEnd> 
ee 





和 上 图 一 样 的 网 页 集 ， 但 展示 的 是 用 元 词 编写 的 情况 ， 而 非 在 网 络 浏览 器 中 显示 的 
样子 。 





看 一 下 上 面 的 图 。 这 张 图 展示 的 内 容 和 前 一 张 图 一 样 ， 但 显示 的 
是 实际 编写 网 页 的 样子 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 绝 大 多 数 
网 络 浏览 器 都 能 让 用 户 检 验 网 页 的 原始 内 容 ， 这 需要 选择 名 为 “查看 
网 页 源 代码 ”的 菜单 选项 一 一 我 建议 你 下 次 有 机 会 试验 一 下 。〔 注 
意 ， 在 这 里 使 用 的 元 词 ， 如 <titleStart> 和 <titleEnd》 是 帮助 你 理解 
的 虚构 的 、 易 于 辨认 的 示例 。 在 真实 的 HTML 中 ， 元 词 被 称 作 标签 
(tag) 。HTML 中 开启 和 结束 标题 的 标签 是 <title> 和 </title> 一 一 你 
可 以 在 使 用 “和 碍 看 网 页 源 代码 ”的 菜单 选项 后 搜索 这 些 标签 。) 











在 创建 一 份 索引 时 ， 宫 括 所 有 元 词 是 件 很 简单 的 事 。 无 须 新 把 
戏 : 你 只 要 像 存 储 正常 单词 一 样 存 储 元 词 位 置 束 行 。 下 页 的 图 显示 了 
从 带 有 元 词 的 三 个 网 页 中 创建 的 索引 。 看 一 下 这 张 图 ， 确 保 自己 理解 
了 其 中 所 有 的 奥秘 。 比 如 ，“mat” 的 项 是 1-11、2-11， 表 示 “mat” 
是 第 1 页 的 第 11 个 词 ， 也 是 第 2 页 的 第 11 个 词 。 元 词 位 置 的 解读 也 一 
样 ，“*titleEnd>” 的 项 是 1-4、2-4 和 3-4， 也 就 是 说 “titleEnd>?” 


上 入 入 


征 第 1 页 、 第 2 页 和 第 3 页 的 第 4 个 词 。 




















我 们 称 这 种 和 索引 普通 单词 一 样 索引 元 词 的 简单 把 戏 为 “元 词 把 
戏 ”。 这 个 把 戏 也 许 看 起 来 简单 得 可 突 ， 但 元 词 把 戏 在 让 搜索 引擎 执 
行 精确 搜索 和 高 质量 排名 上 扮演 了 至 关 重 要 的 角色 。 举 个 简单 例子 证 
明 。 假 设 在 某 个 时 候 ， 有 个 搜索 引 敬 支持 使 用 IN 关 键 词 的 特殊 查询 ， 
因此 像 poat IN TITLE 这 样 的 碍 询 只 会 返回 在 网 页 标题 中 包含 了 单词 
“boat ”的 网 页 ， 而 查询 giraffe IN BODY 则 会 找到 在 正文 中 包含 











“giraffe”【〔 长 颈 讶 ) 的 网 页 。 请 注意 ， 绝 大 多 数 搜索 引擎 并 不 完全 
按照 这 种 方法 提供 IN 碍 询 ， 但 一 些 搜索 引擎 可 以 通过 让 你 点 击 “ 融 级 
搜索 ”选项 ， 详 细 说 明 碍 询 词 必须 出 现 





a 3-10 

cat 1-3 1-7 3-7 
dog 2-3 2-7 3-11 
mat 1-11 2-11 

my 1-2 2-2 3-2 
on 1-9 2-9 

pets 3-3 

sat 1-8 3-12 

stood 2-8 3-8 

the 1-6 1-10 2-6 2-10 3-6 
while 3-9 

<bodyEnd> 1-12 2-12 3-13 
<bodyStart> 1-5 2-5 3-5 
<titleEnd> 1-4 2-4 3-4 
<titleStart> 1-1 2-1 3-1 


上 一 张 图 中 的 网 页 (包括 元 词 ) 的 索引 。 
dog : ‘2-3; 2-7 ; 3-11 
<titleStart> : 1-1 {2-1):3-1: 
<titleEnd> : 1-4 {2-4);3-4: 


搜索 引擎 如 何 有 效 地 执行 查询 dog IN TITLE。 


在 标题 或 一 份 文件 的 特定 位 置 来 实现 同样 的 效果 。 我 们 假定 IN 关 
键 词 存 在 ， 以 便 更 容易 解释 。 事 实 上 ， 在 写作 本 书 时 ， 人 谷歌 已 经 可 以 
让 用 户 通过 使 用 关键 词 intitle 进 行 标题 搜索 因此 ， 在 谷歌 中 查询 
intitle:boat， 将 找到 标题 中 带 有 “boat” 的 网 页 。 自 己 试 试 ! 





让 我 们 来 看 看 ， 在 上 面 两 张 图 中 由 三 个 网 页 组 成 的 示例 里 。 





首先 ， 搜 索引 擎 提取 “dog” 的 索引 项 ， 也 就 是 2-3、2-7 和 3-11。 
然后 (这 可 能 有 点 出 人 意料 ， 但 请 忍耐 片刻 〉 搜 索引 擎 会 同时 提取 
<titleStart> 和 《titleEnd> 的 索引 项 。 


<titleStart> 的 索引 项 是 1-1、2-1 和 3-1，*titleEnd> 的 索引 项 是 
1-4、2-4 和 3-4。 这 些 提 取信 息 全 部 显示 在 上 图 中 ， 你 可 以 忽略 那些 圈 
和 框 。 











之 后 ， 搜 索引 擎 开始 扫描 “dog” 的 索引 项 ， 检 查 其 命中 ， 看 是 否 
有 哪个 命中 发 生 在 标题 内 。“dog” 的 第 一 个 命中 是 圈 起 来 的 项 2-3， 
代表 其 是 第 2 页 的 第 3 个 词 。 通 过 一 并 扫描 <titleStart> 的 项 ， 搜 索引 
敬 束 能 知道 第 2 页 的 标题 从 哪 开 始 一 一 即 索 引 项 的 第 一 个 数字 要 以 
“2-” 开 始 ， 也 就 是 被 圈 的 项 2-1， 即 第 2 页 的 标题 从 第 1 个 单词 处 开 
始 。 同 样 的 ， 搜 索引 擎 能 知道 第 2 页 的 标题 在 哪 结 束 。 搜 索引 擎 只 要 扫 
描 索 引 项 中 的 <titleEnd>， 寻 找 以 “2-” 开 始 的 索引 项 数字 ， 在 这 个 
例子 中 就 是 停止 在 被 圈 的 项 2-4 处 。 因 此 第 2 页 的 标题 在 第 4 个 词 处 结 
束 。 


我 们 目前 已 知 的 所 有 东西 都 被 图 中 圈 住 的 项 总 结 了 。 它 们 告诉 我 
们 第 2 页 的 标题 从 第 1 个 词 开 始 ， 到 第 4 个 词 结束 ， 而 “dog” 这 个 词 是 
第 3 个 词 。 最 后 一 步 很 简单 : 因为 3 大 于 1， 小 于 4， 我 们 肯定 “dog” 的 
这 次 命中 确实 出 现在 一 个 标题 中 ， 因 此 第 2 页 应 该 是 查询 dog IN TITLE 
的 命中 。 























现在 搜索 引擎 可 以 转向 寻找 “dog” 的 第 二 个 命中 ， 也 就 是 2- 
7《【〈 第 2 页 的 第 7 个 词 )》 ， 但 因为 我 们 已 经 知道 第 2 页 是 命中 ， 因 此 可 以 
忽略 2-7 这 个 项 ， 转 向 下 一 个 命中 3-11 (由 一 个 框 标记 ) 。 这 表示 
“dog” 是 第 3 页 第 11 个 词 。 于 是 我 们 开始 跳 过 被 圈 住 的 <titleStart> 
和 <titleEnd> 项 ， 寻 找 以 “3-” 开 始 的 项 。 (有 一 点 需要 重点 注意 ， 
我 们 不 必 回 到 每 行 的 开始 ， 而 是 可 以 从 之 前 扫描 命中 的 地 方 重 新 开 
始 。) 在 这 个 简单 例子 中 ， 以 “3-” 开 始 的 项 恰好 彼此 相 邻 一 一 
《titleStart> 是 3-1, 《titleEnd> 是 3-4。 为 便于 参考 ， 这 两 个 数字 都 
用 框 围 了 起 来 。 接 下 来 ， 我 们 又 面临 判定 “dog” 在 3-11 的 命中 是 人 否 位 
于 标题 内 的 问题 。 框 内 信息 告诉 我 们 ， 它 们 都 是 在 第 三 页 ，“dog” 是 
第 11 个 词 ， 而 标题 从 第 1 个 词 开 始 ， 到 第 4 个 词 结束 。 因 为 11 大 于 4， 所 
以 “dog” 的 这 次 命中 出 现在 标题 之 后 ， 也 就 是 不 在 标题 内 。 网 页 3 并 
不 是 查询 dog IN TITLE 的 命中 。 











元 词 把 戏 能 让 搜索 引擎 以 极端 高 效 的 方式 回应 有 关 一 个 文件 结构 
的 查询 。 上 面 的 例子 只 是 搜索 页 面 标题 内 ， 但 类 似 的 技术 能 让 用 户 搜 
索 超 链接 、 图 片 描述 和 网 页 其 他 有 用 部 分 内 的 词 。 而 且 所 有 这 类 查询 
都 可 以 像 上 面 的 例子 一 样 得 到 高 效 回应 。 正 如 我 们 之 前 讨论 过 的 查 
询 ， 搜 索引 擎 无 须 返 回 查 看 原始 网 页 : 搜索 引擎 只 需 查 阅 小 部 分 索引 
项 ， 就 能 回应 查询 。 同 样 重要 的 是 ， 搜 索引 擎 只 需 遍 历 每 个 索引 项 一 
次 。 还 记得 我 们 在 完成 处 理 第 2 页 的 首 个 命中 后 ， 转 向 第 3 页 的 可 能 命 
中 时 发 生 了 什么 吗 ? 搜索 引擎 并 没有 返回 索引 项 titleStart> 和 
《titleEnd> 的 开端 ， 而 是 从 之 前 离开 的 地 方 继续 进行 扫描 。 这 也 是 让 
IN 查询 高 效 的 关键 因素 。 


标题 查询 和 其 他 取决 于 网 页 结构 的 “结构 查询” 类 似 于 之 前 讨论 
的 NEAR 查 询 ， 虽 然 人 们 极 少 执行 结构 僵 询 ， 但 搜索 引擎 无 时 无 刻 不 在 
内 部 使 用 它们 。 原 因 之 前 提 过 : 搜索 引擎 的 生死 由 其 排名 的 质量 决 
定 ， 而 通过 利用 网 页 结构 ， 排 名 质量 能 够 得 到 大 幅 提 升 。 比 如 ， 标 题 
中 有 “dog” 的 网 页 包含 与 狗 有 关 信 息 的 可 能 性 ， 要 比 在 网 页 正文 中 所 









































及 “dog” 的 网 页 大 得 多 。 因 此 ， 当 一 名 用 户 输 入 简单 的 查询 dog， 搜 
索引 擎 能 在 内 部 执行 一 个 dog IN TITLE 查 询 ( 即 便 用 户 并 未 详细 地 要 
求 这 一 点 ) ， 以 寻找 最 有 可 能 与 狗 有 关 的 网 页 ， 而 非 只 是 恰好 提 到 狗 
的 网 页 。 


| 索引 和 匹配 把 戏 并 非 是 全 部 内 容 


搭建 一 个 搜索 引擎 并 不 是 一 件 容易 的 事情 。 了 最 终 成 品 就 像 一 个 巨 
大 的 复杂 机 器 ， 带 有 许多 不 同 的 轮子 、 发 动机 和 杠杆 。 这 些 装 置 都 必 
须 安装 正确 ， 系 统 才能 有 用 。 因 此 ， 单 靠 在 本 章 中 出 现 的 两 个 把 戏 并 
不 能 解决 创建 一 个 高 效 搜索 引擎 索引 的 问题 ， 意 识 到 这 一 点 很 重要 。 
不 过 ， 词 位 置 把 戏 和 元 词 把 戏 无 疑 展现 了 真正 的 搜索 引擎 构建 和 使 用 
索引 的 “风味 ”。 























元 词 把 戏 的 确 帮助 过 AltaVista 一 一 其 他 搜索 引擎 则 失败 了 一 一 成 
功 地 在 整个 互联 网 中 寻找 有 效 匹配 。 我 们 之 所 以 知道 这 一 点 ， 是 因为 
AltaVista 在 1999 年 递交 的 美国 专利 文件 《索引 的 限制 搜索 》 
(Constrained Searching of an Index) 中 描述 了 元 词 把 戏 。 不 过 ， 
AltaVista 超 级 精巧 的 匹配 算法 并 不 足以 让 其 从 搜索 行业 波涛 测 涌 的 早 
期 脱 额 而 出 。 正 如 我 们 已 经 知道 的 ， 有 效 匹 配 只 是 一 个 高 效 搜索 引擎 
的 一 半 ， 另 一 大 挑战 是 对 匹配 网 页 进行 排名 。 正 如 我 们 将 在 下 一 章 中 
看 到 的 ， 一 种 新 排名 算法 的 出 现 足 以 让 AltaVista 相 形 见 红 ， 并 让 谷歌 
一 跃进 入 网 络 搜索 世界 的 最 前 沿 。 








英文 单词 的 双 引 号 。 一 一 译 者 注 


让 
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PageRan 让 谷歌 腾飞 的 技 


小 
Ll 
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《星际 迷航 》 (Star Trek) 中 的 计算 机 并 
不 特别 让 人 感 兴趣 。 他 们 向 计算 机 提问 题 ， 
计算 机 还 要 想 一 会 儿 。 我 觉得 我 们 能 做 得 更 
好 。 


一 一 拉 里 。 佩 奇 〈 谷 歌 联合 创始 人 ) 


从 建筑 学 的 角度 来 说 ， 车 库 基 本 上 是 个 简陋 的 地 方 。 但 在 人 硅谷 ， 

车 库 有 一 种 特殊 的 创业 含义 : 许多 伟大 的 硅谷 技术 公司 在 此 诞生 或 至 
少 从 车 库 中 孵化 而 来 。 这 一 趋势 并 非 从 20 世 纪 90 年 代 的 互联 网 泡沫 开 
始 。 在 互联 网 泡沫 出 现 的 50 多 年 前 ， 也 束 是 1939 年 ， 当 世界 经 济 仍 未 
从 大 锅 条 的 影响 中 走出 来 时 ， 惠 普 〈Hewlett-Packard) 就 在 加 利 福 尼 
亚 州 由 洛 阿尔 托 (Palo Alto) 戴 夫 。 休 利 特 (Dave Hewlett) 的 车 库 
中 逐渐 成 形 了 。 几 十 年 之 后 ， 史 蒂 夫 。 弄 布 斯 (Steve Jobs) 和 史 带 
夫 。 沃 效 尼 亚 克 (Steve Wozniak) 于 1976 年 在 加 利 福 尼 亚 州 洛斯 拉 图 
斯 乔布斯 的 车 库 中 创业 ， 之 后 创建 了 今天 传奇 的 苹果 计算 机 公司 。 
(尽管 传说 苹果 公司 创办 于 车 库 ， 乔 布 斯 和 添 北 尼 亚 克 一 开始 其 实 是 
从 一 间 卧 室 开 始 的 。 空 间 很 快 就 不 够 用 了 ， 于 是 他 们 转移 到 了 和 车 
库 。) 不 过 ， 和 惠普 和 苹果 的 成 功 故 事 相 比 ， 一 个 名 为 谷歌 的 搜索 引 
擎 的 创办 过 程 更 令 人 惊叹 。 谷 歌 从 加 利 福 尼 亚 州 门 阁 帕 殉 市 的 一 间 车 
库 开始 ， 并 于 1998 年 9 月 注册 成 并 公司 。 








那 时 ， 谷 歌 事 实 上 已 经 运营 自己 的 搜索 引擎 一 年 多 了 一 一 最 开始 
是 在 斯 坦 福 大 学 的 服务 器 上 ， 谷 歌 的 两 位 联合 创始 人 都 是 斯 坦 福 博士 
生 。 直 到 斯 坦 福 大 学 再 也 不 能 承受 这 一 日 益 受 欢迎 的 服务 所 需要 的 带 
宽 ， 拉 里 。 佩 奇 和 谢 尔 盖 。 布 林 才 把 公司 转移 到 了 如 今 著 名 的 门 洛 由 
克 车 库 。 他 们 肯定 做 了 些 正确 的 事 ， 因 为 在 他 们 正式 成 立 公 司 3 个 月 
后 ， 美 国 《 个 人 计算 机 杂志 》 (PC Magazine) 就 宣布 谷歌 是 1998 年 美 
国 排 名 前 一 百 的 网 站 之 一 。 


这 也 是 我 们 的 故事 真正 开始 的 地 方 : 在 当年 《个 人 计算 机 杂志 》 
的 评论 中 ， 和 谷歌 的 精英 管理 层 因 为 谷歌 “以 超 乎 寻常 的 技巧 返回 相关 
度 极 高 的 结果 ”而 获奖 。 你 也 许 还 记得 上 一 章 提 到 过 ， 第 一 个 商业 搜 
索引 人 擎 于 4 年 前 的 1994 年 发 布 。 还 在 车 库 里 的 谷歌 怎么 能 弥补 4 年 的 巨 
大 差距 ， 在 搜索 质量 上 超越 已 经 很 受 欢 迎 的 Lycos 和 AltaVista 呢 ? 这 
一 问题 的 答案 可 不 简单 。 但 最 重要 的 因素 之 一 一 一 尤其 是 在 网 络 搜索 
早期 一 一 就 是 谷歌 用 来 对 其 搜索 结果 进行 排名 的 创新 算法 : 一 个 被 称 
为 PageRank 的 著名 算法 。 











“PageRank” 是 个 双关 词 : 它 既 是 一 种 对 网 页 排名 的 算法 ， 也 是 
其 主要 发 明 者 拉 里 。 佩 奇 的 排名 算法 。 佩 奇 和 布 林 在 1998 年 的 一 篇 学 
术 会 议论 文 《 解 析 大 规模 超 文 本 网 络 搜索 引擎 》 (the Anatomy of a 
Large-Scale Hypertextual Web Search Engine) 中 发 表 了 这 一 算 
法 。 正 如 论文 标题 所 上 暗示 的 ， 这 篇 论文 的 内 容 不 止 是 描述 PageRank。 
事实 上 ， 这 是 对 1998 年 存在 的 谷歌 系统 的 完整 描述 。 但 藏 在 这 一 系统 
技术 细节 中 的 ， 是 对 也 许 是 21 世 纪 出 现 的 第 一 个 算法 瑰宝 的 描述 : 
PageRank 算 法 。 在 本 章 ， 我 们 将 探索 这 一 算法 如 何以 及 为 什么 能 在 草 
埃 中 寻 针 ， 并 持续 为 搜索 得 询 提供 最 相关 的 结果 一 一 也 是 排名 最 靠 前 
的 命中 。 


由 超 链 接 把 戏 











你 很 有 可 能 已 经 知道 了 超 链接 是 什么 : 超 链接 是 网 页 上 的 一 个 短 
语 ， 当 你 点 击 它 时 ， 你 将 被 带 到 另 一 个 网 页 。 绝 大 多 数 网 络 浏览 右 用 
蓝 色 底线 显示 超 链 接 ， 以 便 能 轻易 识别 。 





令 人 意外 的 是 ， 超 链接 也 是 老 想法 。1945 年 一 一 大 约 在 同时 开始 
开发 电子 计算 机 一 一 美国 工程 师范 内 瓦 。 布 什 《Vannevar Bush) 发 表 
了 一 篇 极 具 前 上 脆性 的 论文 《 诚 若 所 思 》。 在 这 篇 涉猎 广泛 的 论文 中 ， 
布什 描述 了 大 量 可 能 的 新 技术 ， 包 括 一 台 被 称 作 麦 麦 克 斯 (memex) 的 
Me a da a E 远 不 止 这 

。 麦 麦克 斯 允许 “关联 索引 ……: 任何 被 选中 的 东西 都 能 立即 自动 选 
拓 骨 一 人 东西， 话说 一 种 和 期 的 超 链 琅 。 


。 欧 尼 的 炒 蛋 菜谱 “ 伯 特 的 炒 蛋 菜谱 
”加 盐 和 胡椒 . 0 : 和 的 
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伯 特 的 菜谱 太 
棒 了 ! i 












伯 特 的 菜谱 绝 

妙 无 比 ! 
超 链接 把 戏 (the hyperlink trick) 的 原理 。 上 面 显示 了 6 个 网 页 ， 每 个 框 都 代表 1 
个 网 页 。 其 中 2 个 网 页 是 炒 蛋 菜谱 ， 其 余 4 个 网 页 都 有 这 些 菜 谱 的 超 链 接 。 超 链接 把 


戏 认为 伯 特 的 网 页 比 欧 尼 的 网 页 排名 高 ， 为 伯 特 有 三 个 链 入 链接 (incoming 
link) ， 而 欧 尼 的 只 有 一 个 。 





超 链 接 自 1945 年 就 已 出 现 。 它 们 是 搜索 引擎 用 来 进行 排名 最 重要 
的 工具 之 一 ， 而 且 是 谷歌 PageRank 技 术 的 基础 。 接 下 来 ， 我 们 将 开始 
以 最 大 的 热情 探索 PageRank 技 术 。 


理解 PageRank 的 第 一 步 是 一 个 名 为 超 链 接 把 戏 的 简单 想法 。 用 一 
个 例子 就 能 非常 容易 地 解释 这 个 把 戏 。 假 设 你 对 学 习 如 何 制作 炒 香 感 
兴趣 ， 并 且 用 网 络 搜索 了 这 一 主题 。 如 今 ， 任 何 一 次 真正 搜索 炒 蛋 的 
网 络 搜索 部 会 出 现 数 百 万 个 命中 ， 但 为 方便 起 见 ， 让 我 们 想象 只 有 两 
个 网 页 出 现 : 其 中 一 个 是 “ 欧 尼 的 炒 重 采 谱 ”， 而 为 一 个 则 是 “但 特 
的 炒 重 琳 谱 ”。 这 两 个 网 页 都 出 现在 上 图 中 ， 与 之 一 道 的 是 拥有 这 些 
菜 详 超 链接 的 网 页 。 还 是 为 了 方便 起 见 ， 让 我 们 想象 这 四 个 包含 超 链 
接 的 网 页 是 整个 互联 网 上 仅 有 的 链接 到 两 个 菜谱 网 页 之 一 的 网 页 。 图 
中 底部 夯 线 的 文字 就 代表 超 链 接 ， 而 第 尖 则 表示 链接 的 指向 。 


问题 是 ， 这 两 个 命中 哪个 排名 应 该 更 高 ? 伯 特 还 是 欧 尼 ? 人 们 在 
阅读 链 癌 这 两 份 菜 谱 的 网 页 并 作出 评价 上 不 会 有 太 大 的 问题 。 看 起 来 
这 两 份 菜 谱 都 很 合理 ， 但 人 们 对 伯 特 亲 详 的 反 啊 要 更 为 热烈 一 些 。 因 
此 ， 在 没有 给 出 其 他 信息 的 情况 下 ， 伯 特 的 沫 谱 比 欧 尼 的 菜谱 排名 更 


高 可 能 会 更 合理 。 


























不 羊 的 是 ， 计 算 机 并 不 擅长 理解 网 页 的 真实 意思 ， 因 此 搜索 引擎 
检查 这 四 个 链 癌 命中 的 网 页 ， 并 对 每 份 末 谱 获 推荐 的 强烈 程度 进行 评 
估 也 不 太 可 能 。 为 外 ， 计 算 机 在 计算 方面 非常 优秀 。 一 种 简单 方法 右 
是 只 计算 链 问 每 份 菜 详 的 网 页 数 一 一 在 这 个 例子 中 ， 一 个 网 页 链 向 欧 
尼 的 全 谱 ， 三 个 网 页 链 癌 伯 特 的 菜谱 一 一 并 根据 这 些 菜谱 的 链 入 链接 
数 对 菜谱 排名 。 当 然 ， 这 种 方法 远 不 如 让 人 阅读 所 有 页 面 并 手动 排名 
精确 ， 但 无 疑 是 一 种 有 用 的 方法 。 如 果 你 没有 其 他 信息 ， 一 个 网 页 的 
链 入 链接 数 可 以 成 为 该 网 页 可 能 会 多 有 用 或 多 有 “权威 性 ”的 指标 。 
在 这 个 例子 中 ， 伯 特 的 菜谱 得 分 为 3， 欧 尼 的 全 谱 得 分 为 1， 因 此 在 搜 
索引 擎 癌 用 户 展示 的 结 采 中 ， 伯 特 的 网 页 排名 比 欧 尼 的 高 。 




















你 可 能 已 经 发 现 了 一 些 在 排名 上 使 用 这 种 “ 超 链接 把 戏 ” 的 问 
题 。 一 个 很 明显 的 问题 就 是 ， 有 时 候 链 接 被 用 来 显示 差 网 页 ， 而 非 好 
网 页 。 比 如 ， 假 设 有 个 链接 欧 尼 沫 谱 的 网 页 上 写 着 : “我 试 了 下 欧 尼 
的 染 谱 ， 很 糟糕 。” 像 这 样 批评 而 非 推荐 一 个 网 页 的 链接 ， 的 确 会 导 
致 超 链接 把 戏 将 网 页 的 排名 拔高 。 不 过 ， 在 现实 中 ， 超 链接 更 多 是 用 
于 推荐 而 非 批 评 。 因 此 ， 尽 管 有 这 个 明显 的 缺陷 ， 超 链接 把 戏 仍然 很 
有 用 。 


有 权 e 


你 可 能 已 经 在 想 ， 为 什么 要 对 网 页 的 所 有 和 链 入 链接 一 视 同仁 。 来 
目 专 家 的 推荐 肯定 就 要 比 末 鸟 的 推荐 更 有 价值 ? 要 细致 地 理解 这 一 
扩 ， 我 们 继续 研究 上 面 的 炒 乍 例子， 不 过 研究 的 是 男 一 组 链 入 链接 。 
下 页 的 图 对 链 入 链接 进行 了 重新 设置 : 现在 ， 伯 特 和 欧 尼 的 采 详 的 链 
入 链接 数 相等 了 (只 有 一 个 ) ， 但 欧 尼 的 链 入 链接 来 自我 的 主页 ， 而 
伯 特 的 则 来 目 于 著名 主 厨 艾 利 斯 。 添 特 斯 。 





如 果 没 有 其 他 信息 ， 你 更 喜欢 哪个 菜谱 ? 很 显然 ， 选 择 由 一 位 车 
名 主 厨 推荐 的 菜谱 ， 要 比 选择 由 一 名 计算 机 科学 相关 书籍 作者 推荐 的 
末 谱 更 好 。 我 们 称 这 一 基本 原则 为 “权重 把 戏 ” (the authority 
trick) : 来 自 高 “权重 ”网 页 的 链接 排名 要 比 来 自 低 “权重 ”网 页 链 
接 的 排名 高 。 


“ 伯 特 的 炒 蛋 菜谱 
首先 融 一 小 勺 


欧 尼 的 炒 蛋 菜谱 
加 盐 和 胡椒 ， 在 一 
个 大 而 里 把 四 个 鸡 














约翰 . 麦 考 密 克 的 主页 
我 尝试 过 欧 尼 
的 菜谱 一 次 ， 
一 点 都 不 差 。 


艾 利 斯 沃 特 斯 的 主页 


很 显然 ， 伯 特 的 菜 
谱 是 最 好 的 炒 蛋 菜 
谱 之 一 。 


权重 把 戏 的 原理 。 这 里 显示 了 四 个 网 页 : 两 个 炒 蛋 菜谱 网 页 和 两 个 链 向 菜谱 的 网 
页 。 其 中 一 个 链接 来 自 于 本 书 作者 〈 不 是 著名 主 厨 ) ， 而 另 一 个 链接 来 自 著名 主 厨 
艾 利 斯 * 沃 特 斯 的 主页 。 权 重 把 戏 将 伯 特 的 网 页 排 在 欧 尼 的 菜谱 之 前 ， 因 为 伯 特 的 链 
入 链接 “权重 ” 比 欧 尼 的 链 入 链接 大 。 








这 个 原则 很 好 ， 但 其 实际 形式 对 搜索 引擎 而 言 一 点 用 都 没有 。 计 
算 机 如 何 才 能 自动 判定 艾 利 斯 ， 活 特 斯 在 炒 重 方 面 比 我 更 具有 权威 性 
呢 ? 有 个 想法 对 此 也 许 会 有 所 帮助 ， 让 我 们 把 超 链 接 把 戏 和 权重 把 戏 
结合 起 来 。 所 有 网 页 的 初始 权重 值 (authority score) 都 是 1， 但 如 
果 一 个 网 页 有 链 入 链接 ， 在 计算 该 网 页 权重 时 就 要 加 入 指 癌 其 的 网 页 
的 权重 。 也 就 是 说 ， 如 果 X 和 Y 网 页 链 疝 Zz 网页， 那么 Z 网 页 的 权重 束 是 X 
网 页 和 Y 网 页 权重 相 加 的 值 。 





下 和 面 的 图 在 计算 这 两 个 炒 重 荣 谱 网 页 的 权重 值 上 很 详细 。 终 值 显 
示人 在 加 财 中 。 图 中 有 两 个 网 页 链 癌 我 的 主页 ; 这 些 网 页 本 里 没有 链 入 
链接 ， 因 此 权重 值 为 1。 我 的 主页 的 权重 值 是 所 有 链 入 链接 权重 值 的 总 
和 ， 相 加 得 2。 艾 利 斯 。 沃 特 斯 的 主页 有 100 个 链 入 链接 ， 每 个 链 入 链 





接 的 权重 值 为 1， 因 此 它 的 权重 是 100。 欧 尼 的 菜谱 只 有 一 个 链 入 链 
接 ， 但 这 个 链 入 链接 的 权重 值 是 2， 因 此 将 其 所 有 链 入 链接 的 权重 值 相 
加 《这 个 例子 中 只 有 一 个 数 可 加 ) ， 欧 尼 沫 谱 网 页 的 权重 值 为 2。 伯 特 
菜谱 网 页 也 只 有 一 个 链 入 链接 ， 但 其 权重 值 为 100， 因 此 伯 特 沫 谱 网 页 
的 权重 值 为 100。 而 因为 100 大 于 2， 所 以 伯 特 的 网 页 排名 要 比 欧 尼 的 


[可 




















欧 尼 的 炒 蛋 菜谱 
加 盐 和 胡椒 ， 在 一 
个 大 碗 里 把 四 个 鸡 
蛋 搅 习 …… 


伯 特 的 炒 蛋 菜谱 
首先 融 一 小 勺 的 


黄油 @ 


艾 利 斯 。 活 特 斯 的 主页 





很 显然 ， 伯 特 的 菜 | 
0 


谱 之 一。 





对 两 个 炒 蛋 菜谱 网 页 “权重 值 ” 的 简单 计算 。 权 重 值 显示 在 圆圈 中 。 


上 机 访问 者 反 式 


就 自动 计算 权重 值 来 次， 我 们 似乎 拥有 了 一 个 真正 奏效 的 策略 ， 





无 须 计算 机 真正 地 理解 网 页 内 容 。 不 幸 的 是 ， 这 种 方法 有 个 大 问题 。 


超 链接 很 有 可 能 形成 被 计算 机 科学 家 称 为 “循环 ”《〈cycle) 的 东西 。 
循环 指 访问 者 可 以 通过 点 击 超 链 接 返 回 出 发 时 的 网 页 。 


下 图 就 是 个 例子 。 图 中 有 A、B、C、D、E 五 个 网 页 。 如 果 从 A 开 
台 ， 我 们 可 以 通过 A 访 问 B， 然 后 又 从 B 访 问 E， 而 从 E 我 们 又 能 点 回 A， 
也 就 是 回 到 了 出 发 点 。 这 也 意味 着 A、B 和 E 三 个 网 页 组 成 了 一 个 循环 。 





超 链 接 循 环 的 一 个 例子 。 网 页 A、B 和 E 组 成 了 一 个 循环 ， 你 可 以 从 A 开始 ， 点 击 到 B， 
然后 到 E， 再 返回 到 A 的 出 发 点 。 





循环 造成 的 问题 。 网 页 A、B 和 E 永 远 需 要 更 新 ， 它 们 的 权重 值 会 一 直 增 加 下 去 。 


看 来 ， 在 遇 到 循环 时 ， 目 前 “权重 值 ”的 定义 《将 超 链接 把 戏 和 
权重 把 戏 结合 起 来 ) 就 碰 到 大 麻烦 了 。 看 看 在 这 个 特例 中 会 发 生 什 么 


事情 。 网 页 C 和 D 没 有 链 入 链接 ， 因 此 其 权重 值 为 1。 网 页 C 和 D 都 链 向 网 
页 A， 因 此 A 的 权重 值 是 网 页 C 和 D 权 重 值 的 和 ， 也 就 是 1+1=2。B 网 页 从 A 
获得 的 权重 值 为 2， 而 E 又 从 B 获 得 权重 值 2。 〈 这 里 谈 到 的 情况 都 由 上 
图 左 侧 部 分 所 体现 。) 但 现在 A 的 权重 值 要 更 新 了 : A 从 C 和 D 各 得 到 权 
重 值 1， 但 也 从 E 得 到 权重 值 2， 相 加 为 4。 于 是 B 的 权重 值 也 需要 更 新 : 
从 A 获 得 权重 值 4。 然 后 E 的 权重 值 也 要 更 新 ， 它 从 B 获 得 了 权重 值 4。 
(现在 谈 到 的 情况 都 由 上 图 右 侧 部 分 所 体现 。) 依 此 类 推 : 于 是 A 的 权 
重 值 变 为 6，B 为 6，E 为 6， 于 是 A 的 权重 值 变 为 8…… 你 懂 了 吧 ? 随 着 循 
环 进行 ， 网 页 的 权重 值 会 一 直 增 加 。 





这 样 计算 权重 值 ， 会 产生 “ 鸡 生 蛋 ， 还 是 重生 鸡 ” 的 问题 。 如 果 
我 们 知道 A 网 页 真正 的 权重 值 ， 我 们 就 能 计算 B 网 页 和 E 网 页 的 权重 值 。 
而 如 果 我 们 知道 B 网 页 和 FE 网 页 真正 的 权重 值 ， 我 们 就 能 计算 A 网 页 的 权 
重 值 。 但 由 于 这 些 网 页 役 此 依赖 ， 似 乎 这 样 计 算 根 本 行 不 通 














随机 访问 者 模式 ， 被 访问 者 访问 的 网 页 用 灰色 表示 ， 座 线 箭头 代表 随机 重新 开始 访 
问 (restart), 实 线 箭头 从 网 页 A 开始 ， 指 向 随机 选择 的 超 链接 ， 并 被 两 个 随机 重新 


开始 访问 箭头 所 打 乱 。 


幸运 的 是 ， 我 们 可 以 通过 被 称 为 随机 访问 者 把 戏 (the random 
surfer trick) 的 技术 解雇 这 个 “ 鸡 生 和 蛋 ， 还 是 重生 鸡 ” 的 问题 。 注 
意 : 对 随机 访问 者 把 戏 的 初始 描述 ， 和 到 目前 为 止 探 讨 的 超 链 接 及 权 
重 把 戏 没 有 任何 关联 。 一 旦 了 解 了 随机 访问 者 把 戏 的 基本 原理 ， 我 们 
就 会 做 一 些 分 析 ， 揭 示 其 令 人 瞩目 的 品质 : 随机 访问 者 把 戏 结合 了 超 
链接 及 权重 把 戏 令 人 喜爱 的 属性 ， 但 在 出 现 超 链接 循环 时 也 行 得 通 。 


这 个 把 戏 从 假想 一 个 随机 访问 互联 网 的 人 开始 。 确 切 地 说 ， 访 问 
者 随机 从 万 维 网 上 的 一 个 网 页 开始 访问 ， 然 后 检查 该 网 页 上 的 所 有 超 
链接 ， 之 后 随机 挑选 出 其 中 一 个 超 链 接 进 行 点 击 。 用 户 再 检查 打开 的 
新 网 页 ， 随 机 选择 一 个 超 链接 打开 。 这 个 过 程 会 持续 进行 ， 每 一 个 网 
页 都 是 通过 随机 选择 前 一 个 网 页 上 的 链接 打开 的 。 上 图 就 是 个 例子 。 
在 这 个 例子 中 ， 我 们 假设 整个 万 维 网 只 有 16 个 网 页 。 框 代表 网 页 ， 季 
头 代表 网 页 之 间 的 超 链接 。 其 中 标记 了 四 个 网 页 以 便 稍 后 进行 参考 。 
被 访问 者 访问 的 网 页 用 灰色 表示 ， 黑 色 箭 头 代 表 访 问 者 点 击 的 超 链 
接 ， 虚 线 箭 头 代 表 随 机 重新 开始 访问 ， 这 个 在 之 后 会 讲 到 。 


整个 过 程 有 一 个 转折 点 : 每 次 访问 一 个 网 页 时 ， 都 有 一 个 固定 的 
重新 访问 概率 〈 大 概 是 15%) ， 让 访问 者 不 从 已 有 的 超 链 接 中 挑选 一 个 
并 点 击 。 相 反 ， 访 问 者 会 重新 开始 这 一 过 程 ， 从 互联 网 上 随机 选择 一 
个 网 页 点 击 。 你 也 可 以 认为 访问 者 有 15% 的 概率 对 任何 已 有 网 页 厌倦， 
导致 其 点 击 另 一 组 链接 ， 这 么 想 也 许 会 有 帮助 。 要 想 找 些 例 子 ， 请 仔 
细 观 察 上 图 。 这 个 特定 的 访问 者 从 网 页 A 开 始 ， 在 对 网 页 B 厌 倦 前 连续 
点 击 了 三 个 随机 超 链 接 ， 并 在 网 页 C 重 新 开始 。 在 下 次 重新 开始 前 ， 访 
问 者 又 点 击 了 两 个 随机 超 链接 。 (顺便 说 一 句 ， 本 章 中 所 有 随机 访问 
者 例子 中 的 重新 开始 概率 都 为 15%， 这 也 是 谷歌 联合 创始 人 拉 里 。 佩 奇 
和 谢 尔 盖 。 布 林 在 摘 述 其 搜索 引擎 原型 的 原始 论文 中 使 用 的 值 。) 











用 计算 机 模拟 这 一 过 程 很 容易 。 我 为 此 写 了 一 个 程序 并 运行 了 
它 ， 直 到 访问 者 访问 了 1 000 个 网 页 。〔 当 然 ， 这 并 不 意味 着 是 1 000 
个 不 重复 的 网 页 。 对 同一 网 页 的 多 次 访问 也 被 纳入 了 计算 当中 ， 在 这 
个 例子 中 ， 所 有 网 页 都 被 访问 了 多 次 。) 这 1 000 次 模拟 访问 的 结果 显 
示 在 下 图 〈 顶 图 ) 中 。 你 可 以 看 到 ， 网 页 D 的 访问 次 数 最 多 ， 有 144 
次 。 








就 像 民 意 调查 一 样 ， 我 们 可 以 通过 增加 随机 样本 的 数目 来 提高 模 
拟 精度 。 我 重新 运行 了 一 次 模拟 ， 直 到 访问 者 访问 了 一 百 万 个 网 页 。 
(也 许 你 会 想 这 花 了 多 长 时 间 ， 在 我 电脑 上 运行 只 花 了 不 到 半 秒 ! ) 
考虑 到 访问 量 如 此 巨大 ， 还 是 用 百分比 表示 结果 更 好 。 这 也 就 是 你 将 
在 下 图 〈 底 图 ) 中 看 到 的 情形 。 和 之 前 的 结果 一 样 ， 网 页 D 的 访问 次 数 
最 频繁 ， 占 总 访问 量 的 15%。 








随机 访问 者 模型 和 权重 把 戏 之 间 有 什么 联系 可 以 被 我 们 用 于 网 页 
排名 呢 ? 从 随机 访问 者 模拟 中 计算 得 出 的 百分比 ， 正 好 就 是 我 们 在 衔 
量 一 个 网 页 的 权重 时 所 需要 的 。 因 此 ， 让 我 们 将 网 页 的 访问 者 权重 值 
Csurfer authority score) 定义 为 一 名 随机 访问 者 花 在 访问 该 网 页 
的 时 间 比 例 。 值 得 注意 的 是 ， 访 问 者 权重 值 能 和 前 两 个 对 网 页 重要 性 
进行 排名 的 把 戏 配 合 良 好 。 我 们 会 逐一 审视 这 些 把 戏 。 


首先 ， 让 我 们 来 审视 一 下 超 链接 把 戏 : 超 链接 把 戏 的 主要 思想 
是 ， 一 个 有 许多 链 入 链接 的 网 页 应 该 有 高 排名 。 这 在 随机 访问 者 模型 
中 也 适用 ， 因 为 一 个 有 许多 链 入 链接 的 网 页 被 访问 的 概率 较 大 。 下 图 
( 底 图 ) 中 的 网 页 D 就 是 个 好 例子 : 它 有 五 个 链 入 链接 一 一 比 模拟 中 的 
其 他 网 页 都 多 一 一 访问 者 权重 值 也 最 高 〈15%) 。 














其 次 ， 让 我 们 来 看 看 权重 把 戏 。 权 重 把 戏 的 主要 思想 是， 和 来 目 
低 权 重 网 页 的 链 入 链接 相 比 ， 一 个 来 自 高 权重 网 页 的 链 入 链接 应 该 更 
能 证 明 一 个 网 页 的 排名 。 随 机 访问 者 模型 也 包含 这 一 点 。 为 什么 ? 因 
为 和 一 个 来 自 不 知名 网 页 的 链接 相 比 ， 访 问 者 更 有 可 能 继续 点 击 一 个 








来 自 知名 网 页 的 链 入 链接 。 要 在 我 们 的 模拟 中 找 这 样 一 个 例子 ， 请 比 
较 上 面 底 图 中 的 网 页 A 和 C: 这 两 个 网 页 都 有 一 个 链 入 链接 ， 但 网 页 A 的 
访问 者 权重 值 要 高 得 多 (13% VS 2%) ， 这 主要 取决 于 其 链 入 链接 的 质 


里 。 








随机 访问 者 模拟 。 顶 图 : 1000 次 访问 模拟 中 各 网 页 的 访问 次 数 。 
底 图 : 100 万 次 访问 模拟 中 各 网 页 的 访问 次 数 占 比 。 


注意 ， 随 机 访问 者 模型 天 生 能 同时 和 超 链 接 把 戏 及 权重 把 戏 相配 


人 
3 沪 


前 文 炒 重 例 中 各 网 页 的 访问 者 权重 值 。 伯 特 的 菜谱 网 页 和 欧 尼 的 
荣 谱 网 页 都 只 有 一 个 链 入 链接 传 入 权重 ， 但 伯 特 的 网 页 在 网 络 搜索 碍 
询 “scrambled eggs” (人 炒 重 ) 时 排名 会 更 高 。 





换 名 话说， 每 个 网 页 链 入 链接 的 质量 和 数量 都 会 被 纳入 考虑 范 
围 。 网 页 B 就 展示 了 这 些 ; 网 页 B 的 访问 者 权重 值 相对 较 高 (10%) ， 得 
益 于 三 个 链 入 链接 所 在 的 网 页 拥有 适中 的 访问 者 权重 值 ， 从 4% 到 7% 不 


有 
等 。 





随机 访问 者 把 戏 的 美妙 之 处 在 于 ， 和 权重 把 戏 不 同 ， 不 管 超 链 接 
有 没有 形成 循环 ， 随 机 访问 者 把 戏 都 能 完美 地 运作 。 回 到 早 前 的 炒 重 


例子 ， 我 们 能 轻易 地 运行 一 次 随机 访问 者 模拟 。 在 数 百 万 次 访问 之 
后 ， 我 的 模拟 产生 了 如 上 图 所 示 的 访问 者 权重 值 。 





早 前 超 链接 循环 例子 (此 图 ) 的 访问 者 权重 值 。 随 机 访问 者 把 戏 在 计算 合理 的 分 值 
上 没有 问题 ， 尽 管 存在 一 个 循环 〈A-B-E-A) 


请 留意 ， 和 之 前 使 用 权重 把 戏 进行 的 计算 一 样 ， 伯 特 的 网 页 访问 
者 权重 值 要 比 欧 尼 的 网 页 高 很 多 (28%VS 1%) 一 一 尽管 这 两 个 网 页 都 
只 有 一 个 链 入 链接 。 因 此 ， 伯 特 的 网 页 在 网 络 搜 索 查 询 “scrambled 
eggs”【〔 炒 蛋 ) 中 排名 更 高 。 





现在 让 我 们 再 转向 前 文中 更 困难 的 例子 : 对 于 最 初 的 权重 把 戏 而 
言 ， 由 于 超 链接 循环 的 存在 ， 这 张 图 产生 了 一 个 不 可 解 的 问题 。 和 前 
面 一 样 ， 运 行 一 次 随机 访问 者 的 计算 机 模拟 很 容易 ， 于 是 产生 了 如 上 
图 所 示 的 访问 者 权重 值 。 由 这 一 模拟 判定 的 访问 者 权重 值 给 出 了 网 页 
的 最 终 排 名 ， 这 些 排 名 会 被 搜索 引擎 在 返回 结果 时 使 用 : 网 页 A 排名 最 
高 ， 之 后 是 B 和 E，C 和 D 的 排名 同 列 最 后 一 名 。 





| 实际 中 的 PageRank 


谷歌 的 两 位 联合 创始 人 于 1998 年 在 他 们 著名 的 会 议论 文 《解析 大 
规模 超 文 本 网 络 搜 索引 擎 》 中 描述 了 随机 访问 者 把 戏 。 通 过 和 其 他 许 
多 技术 结合 ， 这 一 把 戏 的 变 体 仍 被 主流 搜索 引擎 所 使 用 。 不 过 ， 由 于 
众多 复杂 因素 ， 应 用 在 现代 搜索 引 敬 中 的 实际 技术 和 本 章 描 述 的 随机 
访问 者 把 戏 略 有 不 同 。 





其 中 一 个 复杂 因素 直击 PageRank 的 核心 : 有 时 候 ， 假 设 超 链接 传 
输 的 合法 权威 性 有 争议。 我 们 先前 已 了 解 到 ， 尽 管 超 链接 能 代表 批评 
而 非 推荐 ， 但 这 在 现实 中 并 不 是 个 很 大 的 问题 。 另 一 个 更 加 严重 的 问 
题 是 ， 人 们 可 以 滥用 超 链 接 把 戏 ， 人 为 地 提高 自己 网 页 的 排名 。 假 设 
你 运营 着 一 个 名 为 BooksBooksBooks. com 的 网 站 来 售 书 (惊讶 吧 ) 。 通 
过 使 用 自动 化 技术 ， 创 建 一 大 堆 不 同 的 网 页 一 一 比如 一 万 个 一 一 并 让 
这 些 网 页 都 链 向 BooksBooksBooks. com， 做 到 这 一 切 相 对 很 容易 。 因 
此 ， 如 果 搜 索引 擎 和 本 章 描 述 的 一 样 来 计算 PageRank 权 重 ， 
BooksBooksBooks. com 的 权重 值 就 能 比 其 他 书店 高 数 干 倍 ， 进 而 有 更 高 
的 排名 和 更 多 的 销售 额 ， 而 这 都 不 是 BooksBooksBooks. com 应 得 的 。 











搜索 引擎 称 这 种 滥用 为 网 络 垃圾 (web spam) 。【〔 这 一 术语 是 和 
电子 邮件 垃圾 《e-mail spam> 类 比 得 来 的 ， 电子 邮件 收 件 箱 中 无 用 的 信 
居 ， 类 似 于 充斥 在 搜索 结果 中 无 用 的 网 页 。) 对 于 所 有 搜索 引擎 而 
言 ， 侦 测 并 消除 不 同类 型 的 网 络 垃圾 是 一 直 在 进行 的 重要 任务 。 比 
如 ， 在 2004 年 ， 微 软 一 些 研 究 人 员 发 现 ， 逾 30 万 个 网 页 部 只 有 1 001 个 
网 页 链 同 它们 一 一 这 是 件 非 常 令 人 生 疑 的 事情 。 通 过 手动 检查 这 些 网 
页 ， 研 究 人 员 发 现 ， 这 些 链 入 超 链接 绝 大 多 数 都 是 网 络 垃圾 。 











ll 








因此 ， 搜 索引 苟 和 网 络 垃圾 制造 者 在 进行 一 场 军备 苑 赛 。 搜 索引 
擎 不 断 尝 试 完善 算法 ， 以 便 返 回 真实 排名 。 在 完善 PageRank 算 法 的 驱 
动 下 ， 孕 育 了 大 量 针对 其 他 使 用 互联 网 超 链接 结构 进行 网 页 排名 的 算 





法 的 学 术 和 行业 研究 。 这 类 算法 通常 被 称 为 基于 链接 的 排名 算法 
(link-based ranking algorithms) 。 


为 一 个 复杂 因素 与 PageRank 计 算 的 高 效 性 有 关 。 访 问 者 权重 值 是 
通过 运行 随机 模拟 来 计算 的 ， 但 在 整个 互联 网 上 运行 这 类 模拟 耗 时 太 
长 ， 不 能 进行 实际 运用 。 因 此 ， 搜 索引 擎 并 非 通过 模拟 随机 访问 者 来 
计算 PageRank 值 : 它们 使 用 能 像 随机 访问 者 模拟 一 样 给 出 相同 答案 的 
数学 技巧 ， 但 计算 成 本 要 低 很 多 。 我 们 研究 访问 者 模拟 技术 是 因为 它 
直观 的 吸引 力 ， 也 因为 它 描 述 了 搜索 引擎 计算 什么 ， 而 非 如 何 计算 。 


另外 ， 值 得 一 提 的 还 有 ， 商 业 搜 索引 擎 中 用 来 判定 排名 的 算法 ， 
要 比 PageRank 这 类 基于 链接 的 排名 算法 多 得 多 。 即 便 是 在 他 们 于 1998 
年 发 表 的 描述 谷歌 的 原始 论文 中 ， 谷 歌 的 联合 创始 人 也 提 到 了 多 种 对 
搜索 结果 排名 有 页 献 的 功能 。 正 如 你 所 想 的 ， 这 项 技术 已 经 进步 了 : 
在 写作 本 书 时 ， 谷 歌 官网 上 声明 “有 超过 200 个 信号 ”被 用 于 评估 一 个 
网 页 的 重要 性 。 





除了 现代 搜索 引擎 的 众多 复杂 性 之 外 ，PageRank 核 心 的 优美 思想 
一 一 权威 性 网 页 通过 超 链接 向 其 他 网 页 传输 权重 一 一 仍然 有 效 。 正 是 
这 一 思想 帮助 谷歌 击败 了 AltaVista， 让 谷歌 从 一 家 小 型 创业 企业 几 年 
后 成 长 为 搜索 之 王 。 没 有 PageRank 的 核心 思想 ， 绝 大 多 数 搜索 引擎 查 
询 都 将 被 成 后 上 万 命中 但 不 相关 的 网 页 海洋 所 淹没 。PageRank 的 确 是 
一 块 算法 瑰宝 ， 能 让 针 军 不 费力 地 骨 到 草 埃 的 顶端 。 








第 四 章 ” 公 钥 加 密 一 一 用 明信片 传输 秘密 


谁 知道 我 这 些 最 隐秘 的 事情 ?它们 就 藏 在 这 
个 世界 中 。 





鲍 动 。 迪 伦 ， 
《 立 约 的 女人 》 (Covenant Woman) 

人 们 剖 欢 传 证 ， 也 喜欢 了 解 秘 密 。 而 由 于 加 密 的 目的 就 是 传输 秘 
密 ， 所 以 我 们 都 是 天 生 的 密码 员 。 但 人 类 进行 秘密 沟通 要 比 计算 机 容 
易 。 如 果 你 想 向 朋友 透露 一 个 秘密 ， 你 只 需 在 朋友 耳 边 低 声 说 就 行 。 
计算 机 要 做 到 这 一 点 就 不 那么 容易 了 。 一 台 计 算 机 没有 办 法 “ 低 声 ” 
向 另 一 台 计 算 机 透露 一 张 信 用 卡 的 卡号 。 如 果 计 算 机 由 互联 网 相连 ， 
它们 控制 不 了 信用 卡 卡 号 的 流向 ， 也 无 法 控制 会 有 哪些 计算 机 知道 卡 
号 。 在 本 章 ， 我 们 会 探 完 计 算 机 如 何 应 对 这 一 问题 一 一 通过 运用 永远 
都 称 得 上 最 精巧 、 最 有 具 影 响 力 的 计算 机 科学 思想 之 一 : 公 钥 加 密 
(public key cryptography) 。 














读 到 这 里 ， 你 也 许 会 想 ， 为 什么 本 章 的 标题 中 会 提 到 “用 明信片 
传输 秘密 ”? 下 页 图 会 给 出 答案 : 可 以 用 通过 明信片 传输 作为 类 比 ， 
以 展示 公 钥 加 密 的 威力 。 在 现实 生活 中 ， 如 果 你 想 要 发 送 一 份 机 密 文 
件 给 某 人 ， 你 自然 会 在 发 送 前 将 文件 封存 在 一 个 安全 的 密封 的 信封 
内 。 这 并 不 能 保证 机 密 性 ， 但 却 是 正确 方向 上 的 一 个 合理 步 又。 相 
反 ， 如 果 在 发 送 机 密 消息 前 ， 将 机 密 信息 写 在 明信片 背面 ， 很 明显 ， 
这 违背 了 机 密 性 :任何 一 个 接触 过 明信片 的 人 比如 邮局 工作 人 员 ，) 
都 只 需 查看 明信片 ， 就 能 读 到 这 条 消息 。 








这 也 正 是 计算 机 在 互联 网 上 尝试 相互 进行 机 密 通 信 时 面临 的 问 
题 。 因 为 互联 网 上 的 所 有 消息 都 会 通过 无 数 和 被 称 为 路 由 需 的 计算 机 ， 
消 妃 的 内 容 可 以 为 任何 访问 路 由 器 的 人 所 见 ， 而 这 也 包括 潜在 的 恶意 
鳃 昕 者 。 因 此 ， 每 一 块 离开 你 计算 机 并 进入 互联 网 的 数据 ， 束 好 像 写 
在 明信片 上 ! 






明信片 撰写 人 


你 的 笔记 本 电脑 
互联 网 路 由 器 Amazon.com 服 务 器 
(及 潜在 的 窃听 者 ) 


明信片 类 比 : 很 显然 ， 通 过 邮政 系统 寄 出 一 张 明 信 片 不 能 保证 明信片 内 容 的 秘密 
性 。 基 于 同样 的 理由 ， 如 果 没 有 恰当 地 加 密 ， 从 你 的 笔记 本 电脑 上 将 一 张 信 用 卡 的 
卡号 发 送 给 Amazon. com, 很 容易 就 会 被 一 名 窃听 者 窥探 到 。 


针对 这 个 明信片 问题 ， 你 也 许 已 经 想到 了 一 个 快速 补救 方案 。 在 
将 消 轧 写 到 明信片 上 之 前 ， 为 什么 我 们 不 使 用 密码 对 每 条 消 妃 进行 加 
密 呢 ? 实际 上 ， 如 果 你 已 经 知道 接收 明信片 的 人 ， 这 个 方法 还 能 答 
效 ， 因 为 在 过 去 某 个 时 刻 ， 你 们 融 使 用 哪 种 密码 已 经 达成 一 致 。 真 正 


的 问题 出 现在 你 给 不 认识 的 人 寄 明信片 时 。 如 果 你 在 明信片 上 使 用 密 
码 ， 邮 局 工作 人 员 惑 不 能 读 取 你 的 消 电 ， 收 信人 当然 也 不 能 ! 公 钥 加 
密 的 真正 威力 在 于 ， 它 允许 你 应 用 只 有 接收 方才 能 解密 的 密码 一 一 除 
非 你 不 能 就 使 用 哪 种 密码 达成 一 致 。 


注意 ， 计 算 机 在 和 不 “认识 ”的 接收 方 通信 时 会 面临 相同 的 问 
题 。 比 如 ， 你 第 一 次 用 信用 卡 在 Anazon. com 上 购物 时 ， 你 的 计算 机 必 
须 将 你 的 信用 卡 卡 号 传输 给 亚马逊 的 服务 器 。 但 你 的 计算 机 之 前 从 未 
和 亚 马 逊 的 服务 器 联系 过 ， 因 此 这 两 台 计 算 机 在 过 去 没有 机 会 就 密码 
达成 一 致 。 而 它们 之 间 党 试 达 成 的 任何 协议 都 会 被 互联 网 上 所 有 的 路 
由 器 注意 到 。 











让 我 们 回 到 明 信 乒 的 类 比 。 的 确 ， 这 种 情况 听 起 来 像 个 悖 论 ， 接 
收 方 看 到 的 信息 和 邮局 工作 人 员 看 到 的 一 样 ， 但 接收 方 却 有 某 种 手段 
能 解码 消 轧 ， 而 邮局 工作 人 员 却 没有 这 种 手段 。 公 钥 加 密 为 这 一 悖 论 
提供 了 一 个 解决 方案 。 本 划 将 解释 其 工作 原理 。 


由 用 共享 密 钥 加 竹 


让 我 们 从 一 个 非常 简单 的 患 想 实 验 开 始 。 我 们 将 放弃 明信片 类 
比 ， 用 一 些 更 简单 的 来 代 丛 : 在 一 个 房间 内 的 口头 交流 。 具 体 情况 
征 ， 你 和 朋友 阿 诡 德 以 及 敌人 伊美 符 在 一 个 房间 里 。 你 想 要 秘密 地 传 
输 一 条 消息 给 阿 诡 德 ， 但 又 不 能 让 伊 天 理解 这 条 消息 。 这 条 消息 可 能 
古 一 张 信 用 卡 的 卡号 ， 但 为 方便 起 见 ， 假 设 这 是 一 个 极其 短 的 信用 卡 
卡号 ， 只 是 1 到 9 之 间 的 一 个 数字 。 而 你 只 能 通过 大 声 说 话 和 阿 详 德 联 
系 ， 好 让 伊美 昕 到 。 不 得 偷偷 措 措 地 要 小 把 戏 ， 比 如 小 声 说 或 传 纸 


条 。 


具体 来 说 ， 让 我 们 假设 你 试图 传输 的 信用 卡 卡号 为 7。 有 一 种 方法 
可 以 让 你 达成 目标 : 首先 ， 演 试想 一 些 阿诺德 知道 而 伊美 不 知道 的 数 











字 ; 比如 ， 你 和 阿诺德 成 为 朋友 很 和 人 了， 从 孩提 时 残 生活 在 同一 条 街 
上 。 事 实 上 ， 假 设 你 俩 经 常 在 你 家 前 院 玩 去 ， 门 牌号 是 愉快 街 322 号 。 
其 次 ， 假 设 伊 天 并 不 是 从 小 就 认识 你 ， 特 别 是 她 不 知道 你 和 阿 诡 德 过 
去 经 常 玩 要 的 房屋 地 址 。 你 就 能 对 阿诺德 说 : “ 嘿 ， 阿 诡 德 ， 记 得 我 
在 愉快 街 的 家 的 门牌 号 吗 ? 我 们 过 去 一 起 玩 贾 的 地 方 。 如 果 你 用 门牌 
号， 加 上 我 现在 想到 的 信用 卡 卡 写 中 的 一 个 数 ， 你 会 得 到 329。” 











相 加 把 戏 : 通过 将 消息 7 和 共享 密 钥 322 相 加 ， 消 息 7 被 加 密 了 。 阿 诺 德 可 以 通过 减 去 
共享 密 钥 提取 消息 7， 但 伊 英 却 不 能 。 


现在 ， 只 要 阿 诡 德 能 正确 地 记得 房屋 门牌 号 ， 他 就 可 以 通过 将 你 
告诉 他 的 总 数 329 和 房屋 门牌 号 相 减 ， 得 到 信用 卡 卡 号 。 他 用 329 减 去 
322 得 7， 这 也 是 你 试图 同 他 传输 的 信用 卡 卡 号 。 同 时 ， 伊 天 却 不 知道 
信用 卡 卡号 是 多 少 ， 尽 管 她 能 听 到 你 跟 阿 话 德 说 的 每 个 词 。 上 图 显示 
了 整个 过 程 。 





为 什么 这 种 方法 能 奏效 ? 因为 你 和 阿诺德 有 一 样 东 西 ， 也 就 是 计 
算 机 科学 家 们 所 谓 的 共 孚 密 钥 : 数字 322。 因 为 你 俩 都 知道 这 个 数字 ， 
但 伊 关 却 不 知道 ， 你 可 以 使 用 这 个 共享 密 钥 秘密 地 传输 任何 数字 ， 只 


要 和 共享 密 钥 相 加 ， 说 出 总 数 ， 让 男 一 方 减 去 共享 密 钥 即 可 。 听 到 总 
数 对 伊美 没有 任何 用 处 ， 因 为 她 不 知道 要 减 去 哪个 数字 。 


不 管 你 是 否 相 信 ， 如 果 理 解 了 这 个 简单 的 “ 相 加 把 戏 ” 一 一 将 一 
个 共 吝 密 钥 和 如 一 张 信 用 卡 的 卡号 这 类 私人 消息 相 加 一 一 你 就 理解 了 
互联 网 上 绝 大 多 数 加 密 真正 的 运作 原理 ! 计算 机 不 断 地 运用 独 这 一 把 
戏 ， 但 要 真正 实现 保密 性 ， 还 有 一 些 细节 需要 注意 。 





首先 ， 计 算 机 使 用 的 共享 密 钥 要 比 房屋 门牌 号 322 长 很 多 。 如 果 密 
钥 太 短 ， 任 何 穷 昕 对话 的 人 都 可 以 试 遍 所 有 可 能 性 。 比 如 ， 假 设 我 们 
使 用 相 加 把 戏 ， 用 一 个 3 位 数 房屋 门牌 号 来 加 密 一 个 真正 的 16 位 数 信用 
卡 卡号 。 注 意 ，3 位 数 房屋 门牌 号 有 999 种 可 能 ， 那 么 像 伊 芙 这 样 穷 听 
了 对 话 的 敌人 可 以 列 出 一 个 包含 所 有 999 个 可 能 数字 的 表 ， 而 其 中 肯定 
有 一 个 数字 是 信用 卡 卡号 。 而 计算 机 几乎 不 用 费 什 么 时 间 就 能 试 忆 999 
个 信用 卡 卡号 ， 因 此 为 了 共享 密 钥 能 起 作用 ， 我 们 需要 用 远 长 于 3 位 数 
的 数字 来 作为 共享 密 钥 。 











事实 上 ， 当 你 听 到 某 种 加 密 是 一 个 特定 位 数 的 数字 ， 比 如 “128 位 
加 密 ”， 这 实际 上 说 的 是 共享 密 钥 的 长 度 。 共 享 密 钥 通常 被 称 为 
“ 铀 ”， 是 因为 它 能 用 于 解锁 或 “解密 ”一 条 消息 。 如 果 你 解 开 了 负 
证 数位 的 30%， 这 也 就 告诉 了 你 钥匙 的 大 致 数位 。 因 为 128 的 30% 大 约 是 
38， 我 们 就 知道 128 位 加 密使 用 的 钥匙 是 一 个 38 位 的 数 ( 汪 。 一 个 38 位 
数 要 比 10 的 36 次 方 还 要 大 ， 而 又 因为 这 需要 任何 现存 的 计算 机 花费 数 
十 亿 年 时 间 来 试 遍 这 么 多 可 能 性 ， 一 个 38 位 数 的 共享 密 钥 被 认为 非常 
Ee 


这 个 简单 相 加 把 戏 要 在 现实 生活 中 奏效 还 要 克服 一 个 困难 : 加 法 
得 出 的 结果 能 用 于 统计 分 析 ， 这 意味 着 一 些 人 能 通过 分 析 大 量 你 的 加 
密 消 息 来 得 到 钥匙 。 相 反 ， 被 称 为 “分 块 密码 ” (block cipher) 的 
现代 加 密 技 术 使 用 了 相 加 把 戏 的 变 体 。 





首先 ， 长 消息 被 分 解 成 固定 大 小 (通常 是 10 15 个 字母 ) 的 小 
“ 块 ”。 其 次 ， 和 简单 地 将 一 块 消息 与 钥 是 相 加 不 同 的 是 ， 每 个 块 都 
会 根据 一 系列 固定 规则 转换 数 次 。 这 些 规则 类 似 于 加 法 ， 但 会 让 消 奶 
和 钥匙 更 紧密 地 混合 在 一 起 。 比 如 ， 规 则 可 以 是 “将 钥匙 的 前 半 部 分 
和 这 块 消息 的 后 半 部 分 相 加 ， 倒 置 结果 ， 再 将 钥匙 的 第 二 部 分 和 这 块 
消息 的 前 半 部 分 相 加 ”一 一 不 过 在 现实 中 ， 这 些 规 则 要 更 加 复杂 一 
些 。 现 代 分 块 密码 基本 上 会 进行 10“ 轮 ”或 更 多 类 似 操作 ， 即 操作 列 
表 会 被 反复 应 用 。 在 转换 的 轮 数 足够 多 时 ， 原 始 消 息 会 真正 地 混合 
好 ， 并 能 抵御 统计 攻击 ， 但 任何 知道 钥匙 的 人 都 能 用 相反 的 步骤 运行 
所 有 操作 ， 以 获得 最 初 的 解密 的 消息 。 




















在 写作 本 书 时 ， 最 流行 的 分 块 密码 是 高 级 加 密 标准 (Advanced 
Encryption Standard ) ， 或 称 AES。AES 能 配合 多 种 不 同 配置 使 用 ， 
但 标准 配置 是 使 用 16 个 字母 的 块 ， 配 备 128 位 密 铀 ， 进 行 10 轮 混合 操 
人 





公开 建立 一 个 共享 密 铀 


到 目前 为 止 ， 一切 情况 民 好 。 我 们 已 经 知道 互联 网 上 绝 大 多 数 加 
密 技术 的 运作 原理 ; 将 消 恕 分 成 块 ， 使 用 加 法 把 戏 变 体 加 密 每 个 块 。 
但 这 是 加 密 简 单 的 地 方 。 难 点 在 于 一 开始 要 建立 一 个 共享 密 钥 。 在 上 
面 的 例子 中 ， 在 你 和 阿诺德 及 伊美 得 的 房间 里 ， 其 实 我 们 做 点 了 兹 
一 一 我 们 利用 了 你 和 阿 诡 德 从 小 玩 到 大 的 事实 ， 因 此 阿诺德 知道 共 孚 
蜜 钥 〈 你 家 的 房屋 门牌 号 ) 而 伊 天 不 可 能 知道 。 如 果 你 、 阿 话 德 和 伊 
天 都 是 陌生 人 ， 我 们 怎么 玩 同 样 的 游戏 ? 你 有 没有 办 法 和 阿 诡 德 建立 
一 个 伊美 不 知道 的 共 至 密 钥 ? 《〈 记 住 ， 不 能 作弊 一 一 你 不 能 低 声 跟 阿 
诡 德 说 任何 事情 或 给 阿 诡 德 一 张 伊 关 看 不 到 的 纸 条 。 所 有 沟通 都 必须 


乍 一 看 ， 要 做 到 这 一 点 似乎 不 可 能 ， 但 还 是 有 个 精巧 的 办 法 能 解 
决 这 个 问题 。 计 算 机 科学 家 们 称 这 一 解决 方案 为 迪 菲 一 赫 尔 曼 密 钥 交 
换 (Diffie-Hellman key exchange) ， 但 我 们 把 它 称 作 颜 料 混合 把 戏 
(paint-mixing trick) 。 


| 颜料 混合 把 戏 


要 理解 这 一 把 戏 ， 我 们 先 不 管 传 输 信用 卡 卡号 的 事 ， 而 是 假设 你 
想 要 分 吝 的 密 钥 是 一 种 特殊 颜色 的 颜料 。《〈 的 确 ， 这 有 点 诡异 ， 但 我 
们 很 快 会 看 到 ， 用 这 种 方法 来 思考 这 个 问题 非常 有 用 。) 现在 假设 你 
和 阿 话 德 、 伊 天 竺 在 一 个 房间 内 ， 每 人 都 有 大 量 不 同 的 颜料 棚 。 你 们 
都 拥有 相同 的 颜色 选择 一 一 有 多 种 不 同 颜色 ， 每 个 人 都 拥有 多 桶 相同 
颜色 的 颜料 。 这 样 就 不 存在 用 完 颜料 的 问题 了 。 每 一 桶 颜料 都 清楚 地 
标示 了 其 颜色 ， 因 此 在 具体 指导 其 他 人 混合 不 同 闫 色 的 颜料 上 就 很 容 
易 了 : 你 只 要 说 些 如 “将 一 桶 “天 政 色 ”颜料 和 六 桶 “ 淡 黄 神色 ” 闫 
料 以 及 五 桶 “用 绿 色 ” 颜 料 混合 在 一 起 ”的 话 即 可 。 但 在 每 一 块 已 知 
的 色 板 (shade〉 上 都 有 上 百 或 上 干 种 颜色 ， 因 此 ， 不 可 能 只 通过 看 关 
色 束 知道 其 中 混合 了 哪些 具体 的 颜色 。 而 且 也 不 可 能 通过 试 错 发 现 泥 
合 颜色 中 加 入 了 哪些 具体 的 颜色 ， 因 为 可 以 党 试 的 颜色 太 多 了 。 

















现在 要 改变 一 下 游戏 规则 。 你 们 三 人 各 占据 房屋 的 一 角 ， 每 个 角 
落 都 出 于 隐私 考虑 加 以 屏障 ， 你 可 以 在 其 中 存放 颜料 ， 在 其 他 人 看 不 
到 的 情况 下 混合 颜料 。 但 沟通 规则 和 之 前 一 样 : 在 你 、 阿 诡 德 和 伊 天 
之 间 的 任何 沟通 都 必须 公开 。 你 不 能 邀请 阿诺德 进入 你 的 私人 混合 区 
域 ! 另 一 条 规则 规定 了 你 分 孚 颜料 混合 配方 的 方式 。 你 可 以 给 屋内 其 
他 人 一 批 闫 料 ， 但 只 能 把 颜料 放 到 房间 中 央 的 地 板 上 ， 等 其 他 人 来 失 
起 它 。 这 也 意味 着 ， 你 永远 也 不 能 确定 谁 会 捡 起 你 放 的 颜料 。 最 好 的 
办 法 是 ， 为 每 个 人 提供 足够 多 的 颜料 ， 然 后 在 房间 中 央 留 下 数 批 分 开 
的 颜料 。 这 样 ， 任 何 想 要 你 颜料 的 人 都 可 以 拿 取 。 这 条 规则 其 实 只 是 











所 有 沟通 都 必须 公开 的 补充 :; 如 果 你 给 了 阿 话 德 茶 种 混合 颜料 ， 却 没 
有 给 伊 天 ， 你 残 和 阿诺德 进行 了 菏 种 “私密 ”沟通 ， 这 违反 了 规则 。 


记 住 ， 这 个 颜料 混合 游戏 旨 在 解释 如 何 建 立 一 个 共享 密 钥 。 在 这 
时 ， 你 也 许 在 想 混 合 颜 料 和 加 密 有 什么 关系 ， 请 不 要 着 乱 。 你 将 了 解 
到 一 个 令 人 和 慰 奇 的 把 戏 ， 计 算 机 使 用 这 一 把 戏 在 像 互 联网 这 样 的 公共 


场合 建 并 共享 密 钥 ! 





首先 ， 我 们 要 知道 这 个 游戏 的 目标 。 目 标 是 让 你 和 阿诺德 都 能 制 
作 相同 的 混合 颜料 ， 而 不 能 让 伊 英 知 道 如 何 生 产 。 如 果 你 达成 了 这 一 
目标 ， 我 们 就 能 说 你 和 阿诺德 建立 了 一 种 “共享 的 秘密 混合 颜料 ”。 
你 可 以 随心 所 和 欲 地 进行 尽 可 能 多 的 公开 对 话 ， 你 也 可 以 携带 颜料 桶 多 
次 往返 于 房间 中 央 及 你 的 私人 混合 区 域 之 间 。 


现在 我 们 要 开始 探访 公 钥 加 密 背 后 精巧 思想 的 旅程 了 。 我 们 的 颜 
料 混合 把 戏 分 为 四 步 : 


第 一 步 : 你 和 阿诺德 各 自选 择 一 种 “私人 颜色 ”。 


你 的 私人 颜色 与 你 最 终 将 制造 的 共享 秘密 混合 颜料 不 同 ， 但 它 将 
是 共享 秘密 混合 颜料 的 成 分 之 一 。 你 可 以 选择 任何 一 种 颜色 作为 私人 
颜料 ， 但 你 必须 记 住 这 种 颜色 。 很 显然 ， 你 的 私人 颜色 几乎 肯定 会 和 
阿诺德 的 私人 颜色 不 同 ， 因 为 可 供 选 择 的 颜色 太 多 了 。 假 设 你 选 了 滩 
紫色 作为 私人 颜色 ， 阿 诺 德 选 了 深 红色 作为 私人 闫 色 。 








第 二 步 : 选择 一 种 新 的 不 同 的 颜色 成 分 并 公开 宣布 ， 我 们 称 
这 种 颜色 为 “公开 颜色 ”。 


和 之 前 一 样 ， 你 可 以 选择 任何 颜色 。 假 设 你 宣布 的 公开 颜色 是 纵 
菊 黄 。 注 意 只 能 有 一 种 公开 颜色 〈 而 不 是 你 和 阿诺德 各 选 一 种 公开 颜 
色 ) ， 伊 严 自然 也 知道 这 种 公开 颜色 ， 因 为 你 公开 宣布 了 。 


第 三 步 : 你 和 阿 库 德 各 用 一 桶 公开 颜色 和 一 桶 私人 颜色 制造 
一 种 混合 颜色 。 这 就 是 你 的 “公开 一 私人 混合 颜色 ”。 


很 显然 ， 阿 详 德 的 公开 一 私人 混合 颜色 会 和 你 的 不 同 ， 因 为 他 的 
私人 颜色 和 你 的 不 同 。 如 果 继 续 使 用 上 面 的 例子 ， 你 的 公开 一 私人 混 
合 颜 色 会 包含 一 桶 淡 紫 色 和 一 桶 锥 菊 黄 ， 而 阿诺德 公开 一 私人 混合 闫 
色 会 包含 一 桶 深 红色 和 一 桶 骏 菊 黄 。 





到 这 时 ， 你 和 阿诺德 会 想 给 彼此 公开 一 私人 混合 颜色 的 样品 ， 但 
记 住 ， 直 接 给 房间 中 一 个 人 混合 闫 料 是 违反 规则 的 。 给 其 他 人 一 种 混 
合 颜色 的 唯一 方法 是 制作 数 批 该 种 颜料 ， 并 把 它们 放 到 房间 中 央 ， 以 
便 任何 想 要 的 人 拿 取 。 这 也 正 是 你 和 阿诺德 所 做 的 : 你 们 俩 都 制作 数 
批 公 开 一 私人 混合 颜色 ， 并 把 它们 放 到 房间 中 央 。 如 果 伊 关 想 要 的 
话 ， 她 可 以 偷 走 一 到 两 批 ， 但 我 们 很 快 就 会 了 解 到 ， 这 些 颜 料 对 伊 天 
没有 任何 用 处 。 下 页 的 图 显示 了 闫 料 混 合 把 戏 第 三 步 之 后 的 情况 。 











现在 到 达 关 键 点 了。 如果 在 这 时 仔细 想 一 会 儿 ， 你 可 能 会 知道 最 
后 的 把 戏 会 让 你 和 阿诺德 制造 出 同一 种 共享 的 秘密 混合 颜色 ， 而 不 让 
伊 关 知道 秘密 。 管 案 如 下 : 


Ed A 
es 





阿诺德 





你 的 私人 颜色 阿诺德 的 私人 颜色 
颜料 混合 把 戏 第 三 步 : 任何 想 要 的 人 都 可 以 拿 取 公开 一 私人 混合 颜色 。 


第 四 步 : 你 选取 一 批 阿 详 德 的 公开 一 私人 混合 颜色 ， 拿 回 自 
己 的 角落 。 现 在 加 入 一 桶 私人 人 颜色。 同时， 阿诺德 选取 一 批 你 的 
公开 一 私人 混合 颜色 ， 拿 回 他 的 角落 ， 在 那里 他 再 加 入 一 桶 他 的 
私人 颜色 。 


神奇 吧 ， 你 俩 制作 了 同样 的 混合 颜色 ! 让 我 们 来 检验 一 下 : 你 将 
自己 的 私人 颜色 〈 淡 紫色 ) 加 入 阿诺德 的 公开 一 私人 混合 颜色 〈 深 红 
色 和 和 纵 菊 贯 ) ， 得 到 的 最 终 混合 颜色 是 : 一 桶 淡 紫 色 、 一 桶 深 红 色 和 
一 桶 锥 菊 黄 。 阿 诺 德 最 终 得 到 的 混合 颜色 呢 ? 他 将 自己 的 私人 颜色 
〈 深 红色 ) 加 入 你 的 公开 一 私人 混合 颜色 《〈 淡 紫色 和 和 织 菊 黄 ) ， 得 到 
的 最 终 混合 颜色 是 : 一 桶 深 红色 、 一 桶 淡 紫 色 和 一 桶 雏菊 黄 。 这 正和 














你 得 到 的 最 终 混合 颜色 一 样 ， 也 恰好 是 一 种 共享 秘密 混合 颜色 。 下 
的 图 显示 了 闫 料 混 合 把 戏 最 后 一 步 的 情形 。 


党 














阿诺德 





共享 混合 阿诺德 的 私人 
颜色 颜色 颜色 
颜料 混合 把 戏 第 四 步 : 只 有 你 和 阿诺德 能 制作 这 种 共享 秘密 颜色 ， 如 箭头 所 示 组 合 


混合 颜色 。 





那 伊 天 呢 ? 为 什么 她 不 能 制作 一 份 这 种 共享 秘密 混合 颜色 呢 ? 原 
因 是 她 不 知道 你 或 阿诺德 的 私人 颜色 ， 而 她 至 少 需要 其 中 一 种 来 制作 
共享 秘密 混合 颜色 。 你 和 阿诺德 打败 了 她 ， 因 为 你 从 未 在 房间 中 央 公 
开 过 自己 的 私人 颜色 。 相 反 ， 你 在 公开 前 将 自己 的 私人 颜色 和 公开 颜 
色 混 合 在 一 起 ， 而 伊 于 没有 办 法 “分 开 ” 公 开 一 私人 混合 颜色 ， 也 就 
不 能 获得 其 中 一 种 私人 颜色 的 纯正 样本 。 








因此 ,伊美 只 能 获取 两 种 公开 一 私人 混合 颜色 。 如 果 她 将 一 桶 你 
的 公开 一 私人 混合 颜色 和 一 桶 阿诺德 的 公开 一 私人 混合 颜色 混合 在 
起 ， 结 果 是 包含 了 一 桶 深 红色 、 一 桶 淡 紫 色 和 两 桶 雏菊 黄 。 换 句 话 
说 ， 和 共 宇 秘密 混合 颜色 相 比 ， 伊 天 的 混合 颜色 多 了 一 份 和 雏菊 黄 。 她 
的 混合 颜色 太 芮 了， 而 因为 没有 办 法 “分 开 ” 颜 料 ， 她 不 能 移 除 多 余 
的 黄色 。 你 也 许 会 想 ， 伊 芙 可 以 通过 加 入 更 多 深 红 色 和 淡 紫 色 来 达到 
目的 ， 但 要 记 住 ， 伊 关 不 知道 你 的 私人 颜色 ， 因 为 她 不 会 知道 这 些 闫 
色 还 需要 加 入 的 颜色 。 她 只 能 加 入 深 红 色 配 锥 菊 黄 的 组 合 或 淡 紫 色 配 
雏菊 黄 的 组 合 ， 而 这 会 导致 她 的 混合 颜色 太 黄 。 








用 数字 进行 颜料 混合 把 戏 





如 果 你 理解 了 颜料 混合 把 戏 ， 你 就 会 理解 计算 机 在 互联 网 上 建立 
共享 密 钥 的 核心 机 制 。 当 然 ， 它 们 并 不 真 的 使 用 颜料 。 计 算 机 使 用 数 
字 ， 而 要 混合 数字 ， 它 们 会 运用 数学 。 计 算 机 实际 使 用 的 数学 并 不 会 
太 复 杂 ， 但 也 复杂 到 让 人 第 一 眼看 上 去 就 会 感到 困惑 。 因 此 ， 作 为 理 
解 共 享 密 钥 如 何在 互联 网 上 建立 的 下 一 步 ， 我 们 将 用 到 一 些 “ 伪 装 ” 
数学 。 真 正 的 要 点 在 于 ， 要 将 颜料 混合 把 戏 转 化 成 数字 ， 我 们 需要 一 
种 单 癌 操作 (one-way action) : 可 以 做 一 些 事情 ， 但 不 能 取消 做 过 
的 事 。 颜 料 混 合 把 戏 中 的 单 癌 操作 是 “混合 颜料 ”。 将 一 些 颜 料 混合 
起 来 形成 一 种 新 颜色 很 容易 ， 但 要 “分 开 ” 它 们 并 获得 原来 的 颜料 则 
不 可 能 。 这 也 是 为 什么 颜料 混合 是 单 癌 操作 的 原因 。 














我 们 在 前 面 提 到 过 ， 将 会 用 到 一 些 伪装 数学 。 下 面 就 是 我 们 要 伪 
装 的 : 将 两 个 数 相 乘 是 一 项 单 癌 操作。 我 敢 肯 定 ， 你 已 经 意识 到 了 ， 
这 绝对 是 个 借口 。 乘 法 的 反面 是 除法 ， 只 需要 用 除法 就 能 惊奇 地 取消 
乘法 。 比 如 ， 如 果 我 们 从 数字 5 开始 ， 然 后 乘 以 7， 得 到 35。 要 取消 这 
个 乘法 很 容易 ， 只 要 从 35 开 始 ， 除 以 7 就 可 以 了 。 这 会 得 到 我 们 一 开始 
时 的 数字 5。 











但 除 此 以 外 ， 我 们 将 坚持 使 用 这 一 伪装 ， 在 你 、 阿 话 德 和 伊 关 之 
间 玩 另 一 个 游戏 。 这 一 次 ， 我 们 将 假设 你 们 都 知道 如 何 将 数 相 乘 ， 但 
你 们 都 不 知道 如 何 用 一 个 数 除 以 男 一 个 数 。 目 标 和 前 面 的 游戏 几乎 一 
样 : 你 和 阿 话 德 试 图 建立 一 个 共 诗 密 钥 ,但 这 次 共 诗 密 钥 将 是 一 个 
数 ， 而 非 一 种 颜料 。 此 前 的 沟通 规则 也 适用 : 所 有 联系 必须 公开 进 
行 ， 这 样 伊美 就 能 昕 到 你 和 阿诺德 之 则 的 任何 对 话 。 








好 ， 现 在 我 们 要 做 的 事情 就 是 将 磊 料 混合 把 戏 转 换 成 数字 : 


第 一 步 ， 和 选择 一 种 “私人 颜色 ”不 同 的 是 ， 你 和 阿诺德 选 
择 一 个 “私人 数字 ”。 


假设 你 选择 了 4， 阿 诺 德 选择 了 6。 现 在 回想 颜料 混合 把 戏 剩余 的 
步骤 ， 宣布 公开 颜色 ， 制 作 公 开 一 私人 混合 颜色 ， 公 开 地 将 你 的 公开 
一 私人 混合 颜色 与 阿诺德 的 公开 一 私人 混合 颜色 交换 ， 最 后 将 你 的 私 
人 颜色 加 入 阿诺德 的 公开 一 私人 混合 颜色 ， 以 获得 共享 秘密 颜色 。 要 
理解 如 何 将 这 些 步 又 转换 成 数字 ， 并 用 乘法 作为 单 问 操作 取代 颜料 混 
合 也 不 至 于 太 难 。 在 继续 往 下 读 之 前 ， 花 几 分 钟 看 看 你 能 否 自行 理解 
这 个 例子 。 


遵照 这 个 解决 方案 并 不 太 难 ; 你 和 阿诺德 都 选择 了 自己 的 私人 数 
字 (4 和 6) ， 下 一 步 就 是 : 


第 二 步 : 你 们 其 中 一 个 人 宣布 “公开 数字 ”取代 闫 料 泥 合 
把 戏 中 的 公开 颜色 ) 。 


假设 你 选择 了 7 作为 公开 数字 。 


颜料 混合 把 戏 的 下 一 步 是 制作 一 份 公开 一 私人 混合 颜色 。 但 我 们 
己 经 决定 ， 用 将 数字 相 乘 来 代 答 混合 颜料 。 因 此 ， 你 要 做 的 束 是 : 


第 三 步 :将 你 的 私人 数字 (4) 和 公开 数字 (7) 相 乘 ， 得 到 
“公开 一 私人 数字 ”28。 


你 可 以 公开 地 宣布 ， 这 样 阿 诺 德 和 伊 和 天 就 都 知道 了 你 的 公开 一 私 
人 数字 是 28 无须 再 携 和 市 颜料 桶 了 〉。 阿 话 德 对 自己 的 私人 数字 做 了 
同样 的 事 : 他 将 自己 的 私人 数字 和 公开 数字 相 乘 ， 并 宣布 他 的 公开 一 
私人 数字 是 42。 下 面 的 图 显示 了 人 整个 流程 到 达 这 一 点 的 情形 。 
公开 数字 


(4x7) (6x7) 


你 的 公开 一 私人 数字 ”阿诺德 的 公开 一 私人 数字 












你 阿诺德 
你 的 私人 阿诺德 的 私人 


数字 数字 


还 记得 颜料 混合 把 戏 的 最 后 一 步 吗 ? 你 拿 走 阿诺德 的 公开 一 私人 
混合 颜色 ， 加 入 一 桶 你 的 私人 颜色 ， 以 制作 共享 秘密 颜色 。 这 里 发 生 
的 事情 也 一 模 一 样 ， 用 乘法 代 葵 颜料 混合 : 


: 你 把 阿诺德 的 公开 一 私人 数字 (42〉 和 你 的 私人 数 
We 结 是 共享 秘密 数字 168。 





同时 ， 阿 诡 德 用 你 的 公开 一 私人 数字 28 和 他 的 私人 数字 6 相 乘 ， 并 
令 人 惊讶 地 得 到 了 共享 秘密 数字 168。 最 终结 果 显 示 在 下 图 中 。 
公开 数字 





你 的 公开 一 私人 数字 阿诺德 的 公 : 一 私人 数字 






阿诺德 





<— (9) 


数字 


你 的 私人 
数字 


数字 混合 把 戏 第 四 步 : 只 有 你 和 阿诺德 能 得 到 共享 密 钥 数字 ， 通 过 将 途中 箭头 所 示 
的 数字 相 冬 。 


事实 上 ， 当 你 用 正确 的 方法 思考 时 ， 这 一 点 都 不 令 人 惊讶 。 阿 诺 
德 和 你 都 制作 出 了 相同 的 共享 秘密 颜色 的 原因 是 ， 你 将 相同 的 三 种 原 
始 颜 色 混 合 在 了 一 起 ， 但 却 使 用 不 同 的 顺序 : 你 俩 各 自 保 留 了 一 种 私 
人 颜色 ， 把 它 和 由 其 他 两 种 颜料 组 成 的 公开 混合 颜料 组 合 在 一 起 。 同 
样 的 事 也 发 生 在 数字 上 。 你 俩 通过 将 同样 的 三 个 数 4、6 和 7 相 乘 ， 得 
到 了 相同 的 共享 密 钥 。 〈 你 可 以 自己 查证 , 4 X 6 X 7 = 168。) 但 
你 之 所 以 能 达到 这 一 目标 ， 是 通过 用 私人 数字 4 和 由 6 乘 7 得 出 的 公开 混 
合 数字 “混合 ” 〈 相 乘 ) 得 出 的 ， 而 阿诺德 也 宣布 了 这 个 混合 数字 。 
另 一 方面 ， 阿 诺 德 通过 用 私人 数字 6 和 由 4 乘 7 得 出 的 公开 混合 数字 “ 混 
合 ”【〔 相 乘 ) 得 出 共享 密 钥 ， 而 你 也 宣布 了 这 个 混合 数字 。 











就 和 我 们 在 颜料 混合 把 戏 中 做 的 一 样 ， 让 我 们 来 验证 伊 芙 不 能 得 
到 共享 密 钥 。 每 个 公开 一 私人 数字 的 值 在 宣布 时 都 能 被 伊美 听 到 。 她 
听 到 你 说 28， 阿 诺 德 说 42。 她 还 知道 公开 数字 是 7。 因 此 ， 如 果 伊 芮 知 
道 如 何 做 除法 ， 她 就 能 马上 知道 你 所 有 的 密 钥 ， 只 需要 观察 到 28 二 7 
= 4 和 42 二 7 = 6 即 可 。 而 她 可 以 继续 通过 计算 4 X 6 x 7 = 168 算 
出 共享 密 钥 。 不 过 ， 和 幸运 的 是 ， 我 们 在 游戏 中 使 用 的 是 伪装 数学 : 我 
们 假设 乘法 是 一 种 单 向 操作 ， 因 此 伊美 不 知道 如 何 相 除 。 于 是 她 被 数 
字 28、42 和 7 难 住 了 。 她 可 以 将 其 中 一 些 数 相 乘 ， 但 结果 和 共享 密 钥 无 
关 。 比 如 ， 如 果 她 将 28 x 42 = 1 176， 那 就 大 错 特 错 了 。 就 和 颜料 
混合 游戏 中 她 的 结果 太 黄 了 一 样 ， 在 这 里 ， 她 的 结果 中 有 太 多 7。 共 享 
密 钥 中 只 有 一 个 7， 因 为 168 = 4X6X7。 但 伊 英 想 要 破解 密 钥 的 要 素 
中 有 两 个 7， 因 为 1 176 = 4 X 6 x 7 x 7。 而 且 她 还 没有 办 法 去 掉 
多 余 的 7， 因 为 她 不 知道 如 何 做 除法 。 








现实 生活 中 的 颜料 混合 把 戏 





我 们 现在 已 经 讲 完 了 计算 机 在 互联 网 上 建立 共享 密 钥 所 需 的 所 有 
基本 概念 。 使 用 数字 的 颜料 混合 机 制 的 唯一 缺陷 是 ， 它 使 用 的 是 “ 伪 


装 数 学 ”， 在 其 中 我 们 假设 没有 任何 一 方 能 做 除法 。 要 完成 整个 流 
程 ， 我 们 需要 一 个 在 现实 生活 中 容易 做 到 比如 颜料 混合 ， 但 在 实 
际 中 又 不 可 能 取消 《比如 分 离 颜料 ) 的 数学 操作 。 当 计算 机 在 现实 生 
活 中 进行 这 些 操作 时 ， 混合 操 作 束 是 离散 指数 ( discrete 
exponentiation ) ， 而 分 离 操 作 则 被 称 为 离散 对 数 (discrete 
logarithm) 。 由 于 还 没有 一 种 方法 能 让 计算 机 高 效 地 计算 离散 对 数 ， 
离散 指数 就 成 了 我 们 寻找 的 那 类 单 向 操作。 要 恰当 地 解释 离散 指数 ， 
我 们 需要 两 个 简单 的 数学 概念 。 我 们 还 需要 写 几 个 公式 。 如 果 你 不 喜 
欢 公 式 ， 请 直接 忽略 余下 的 部 分 一 一 你 几乎 了 解 了 和 这 个 主题 有 关 的 
所 有 东西 。 另 外 ， 如 果 你 真 的 想 知道 计算 机 如 何 做 这 件 神奇 的 事 ， 接 
着 往 下 读 。 


我 们 需要 的 第 一 个 重要 的 数学 概念 被 称 为 钟 算 (clock 
arithmetic) 。 这 倒是 我 们 都 熟悉 的 东西 : 钟 上 有 12 个 数字 ， 每 次 当 
时 针 路 过 12 时 ， 都 会 从 1 开始 重新 计数 。 一 个 从 10 点 钟 开始 、 持 续 4 小 
时 的 活动 会 在 2 点 钟 结束 ， 也 就 是 说 ， 在 这 个 12 小 时 钟 系统 中 ，10+4 = 
2。 在 数学 中 ， 钟 算 也 是 这 样 运行 的 ， 除 了 两 个 细节 : (1) 钟 的 大 小 
可 以 是 任何 数 〈 而 非 一 个 普通 的 钟 上 熟悉 的 12 个 数字 ) ， 〈2) 数字 从 
0 而 不 是 从 1 开始 计数 。 


下 面 图 中 的 例子 用 的 是 大 小 为 7 的 钟 。 注 意 ， 钟 上 的 数字 是 0、1、 
2、3、4、5 和 6。 用 钟 大 小 为 7 的 钟 做 钟 算 ， 只 要 像 平 常 一 样 将 数字 相 
加 相 乘 即 可 ， 不 过 不 管 结果 如 何 ， 你 只 要 取 除 以 7 所 得 的 余数 即 可 。 计 
算 12 + 6， 我 们 首先 像 平常 一 样 相 加 ， 得 到 18。 然 后 我 们 注意 到 18 中 
有 了 两 个 7〈 即 14) ， 余 4。 因 此 最 终 答 案 是 : 





12 + 6 = 4( 钟 大 小 为 7) 


在 下 面 的 例子 中 ， 我 们 将 钟 大 小 调 为 11。【〔 稍 后 将 讨论 到 ， 现 实 
应 用 中 的 钟 大 小 要 大 很 多 。 我 们 使 用 小 的 钟 大 小 是 为 了 让 解释 尽 可 能 


简单 。) 在 将 结果 除 以 11 后 取 余 并 不 太 难 ， 因 为 11 的 倍数 都 是 像 66 和 
88 这 样 重复 的 数 。 下 面 是 几 个 用 钟 大 小 为 11 进 行 计 算 的 例子 : 


7+9+8=24=2 ( 钟 大 小 为 11) 


8 X7=56=1 ( 钟 大 小 为 11) 





我 们 需要 的 第 二 个 数学 概念 是 震 函 数 (power notation) 。 这 个 
概念 一 点 也 不 花哨 : 就 是 写 下 许多 相同 数字 相 乘 的 快捷 方法 。 和 写 下 6 
x 6 x 6 x 6 不 同 的 是 你 可 以 写成 4， 这 就 是 指 6 乘 以 本 身 4 次 。 
你 可 以 将 蝴 函 数 和 钟 算 结合 起 来 。 比 如 : 





3 
72 三 7 义 了 了 半 站 9 全 5 全 钟 天 小 为 11》 


下 页 的 表格 显示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 10 个 寡 。 这 在 我 
们 将 要 研究 的 例子 中 非常 有 用 。 在 继续 深入 前 ， 请 你 确保 自己 认可 这 
张 表 格 的 生成 方式 。 让 我 们 来 看 看 最 后 一 栏 。 这 一 栏 的 第 一 项 是 6， 也 
就 是 61。 下 一 项 代表 62， 即 36， 但 由 于 我 们 使 用 的 钟 大 小 为 11，36 比 








33 大 3， 因 此 这 一 项 是 3。 要 计算 这 一 栏 的 第 三 项 ， 你 也 许 会 认为 我 们 
要 计算 66 = 6 X 6 X 6, 但 有 个 更 简单 的 方法 。 我 们 已 经 用 自己 感 
兴趣 的 钟 大 小 计算 了 62， 结 果 是 3。 要 得 到 63， 我 们 只 需要 将 先前 的 结 
果 乘 6。 也 就 是 3 X 6 = 18 = 7( 钟 大 小 为 11) 。 下 一 项 是 7 X 6 = 
42 = 9【〈 钟 大 小 为 11) ， 依 此 类 推 ， 直 到 该 栏 最 后 一 项 。 

最 后 ， 我 们 终于 要 准备 建立 一 个 计算 机 在 现实 生活 中 使 用 的 共享 
密 钥 了 。 和 之 前 一 样 ， 你 和 阿 详 德 将 演 试 分 享 一 个 密 铀 ， 而 伊美 家 听 
并 试图 算出 密 钥 。 


第 一 步 : 你 和 阿诺德 各 自 单 独 选择 一 个 私人 数字 。 


CD 
S 
OO) 
1 


(OO NN WwW i 


n 
1 
2 
3 
+ 
9 
6 
7 
8 
9 


一 本 一 机 Ow 
pt 
OO 





这 张 表 显 示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 10 个 里 。 正 如 上 文 所 解释 的 ， 每 个 项 都 
能 通过 一 些 非常 简单 的 算术 从 上 一 项 中 算出 。 


为 保证 数学 尽 可 能 简单 ， 我 们 将 在 这 个 例子 中 使 用 非常 小 的 数 
字 。 因 此 ， 假 设 你 选择 8 作为 私人 数字 ， 而 阿诺德 选择 9。 这 两 个 数字 
一 一 和 9 一 一 都 不 是 共享 密 钥 ， 而 是 像 你 在 颜料 混合 把 戏 中 选择 的 私 
人 颜色 ， 这 些 数 字 将 被 用 作 “ 混 合 ” 一 个 共享 密 钥 的 成 分 。 





第 二 步 : 你 和 阿 话 德 公开 就 两 个 公开 数字 达成 一 致 : 钟 大 小 
《本 例 中 使 用 11) 和 另 一 个 被 称 为 基数 的 数字 【〈 选 2 为 基数 ) 。 


这 些 公开 数字 一 一 11 和 2 一 一 像 公 开颜 色 一 样 ， 你 和 阿诺德 在 颜料 
混合 把 戏 一 开始 就 对 此 达成 了 一 致 。 注 意 ， 颜 料 混 合 类 比 与 本 例 有 点 
不 同 : 在 颜料 混合 中 ， 我 们 只 需 一 种 公开 颜色 ， 而 在 这 个 例子 中 ， 我 
们 需要 两 个 公开 数字 。 














第 三 步 : 通过 使 用 匿 符号 和 钟 算 ， 你 和 阿诺德 各 目 将 自己 的 
私人 数字 和 公开 数字 相 混 ， 分 别 得 到 一 个 公开 一 私人 数字 
(public - private number, PPN) 。 
具体 来 说 ， 泥 合 是 按照 公式 来 完成 的 : 

PPN = base 私 人 数字 〈 钟 大 小 ) 











这 个 公式 用 文字 写 出 来 可 能 会 显得 有 点 痪 异 ， 但 在 实际 中 却 很 简 
单 。 在 我 们 的 例子 中 ， 我 们 能 通过 参考 上 一 页 的 表格 来 得 出 答案 : 








你 的 PPN = 28 = 3 ( 钟 大 小 为 11) 
阿诺德 的 PPN = 29 = 6 ( 钟 大 小 为 11) 


在 这 一 步 之 后 ， 你 可 以 在 下 页 的 图 中 碍 看 这 一 步 。 这 些 公 开 一 私 
人 数字 正 相 当 于 你 在 颜料 混合 把 戏 第 三 步 中 制作 的 “公开 一 私人 混合 
颜色 ”。 在 那 一 步 中 ， 你 将 一 桶 公开 颜色 和 一 部 分 你 的 私人 颜色 相 混 
合 ， 制 作 你 的 公开 一 私人 混合 颜色 。 在 这 里 ， 你 使 用 圭 符 号 和 钟 算 将 
目 己 的 私人 数字 和 公开 数字 相 混 合 。 


第 四 步 : 你 和 阿诺德 各 自 单独 获得 对 方 的 公开 一 私人 数字 ， 
再 和 自己 的 私人 数字 相 混 合 。 


这 可 以 按照 下 面 的 公式 完成 : 


共享 密 钥 = 其 他 人 的 PPN 私 人 数字 ”( 钟 大 小 ) 





和 前 面 的 公式 一 样 ， 用 文字 写 出 来 会 显得 有 扣 诡 寞 ， 但 通过 参考 
前 一 页 的 表格 ， 很 容易 就 能 得 到 管 双 


你 的 共享 密 钥 = 68= 4 〔( 钟 大 小 为 11) 
阿诺德 的 共享 密 钥 = 39= 4 ( 钟 大 小 为 11) 
最 终 解雇 方案 显示 在 下 一 节 的 图 中 。 





(023 (23) 
你 的 公开 -私人 数字 阿诺德 的 公开 一 私人 数字 
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你 的 私人 阿诺德 的 私人 
数字 数字 
现实 生活 数字 混合 第 三 步 : 任何 想 要 公开 一 私人 数字 (3 和 6) 的 人 一 使 用 车 和 钟 





算计 算得 出 一 一 都 可 以 获取 到 。3 下 面 的 “23” 提 醒 了 我 们 3 是 如 何 计算 的 ， 但 3=23 
使 用 的 钟 大 小 为 11 这 个 事实 却 并 未 公开 。 类 似 的 ，6 下 面 的 “2?” 也 仍然 保持 私密 。 


自然， 你 的 共 吾 密 钥 和 阿 详 德 的 共 孕 密 钥 相同 〈 这 个 例子 中 是 
4) 。 取 得 这 个 结果 依靠 了 例子 中 的 一 些 复 杂 算 术 ， 但 基本 概念 和 前 面 
一 样 : 尽管 你 按照 不 同 的 顺序 混合 了 各 种 成 分 ， 但 你 和 阿 诡 德 都 使 用 
了 相同 的 成 分 ， 因 此 也 得 到 了 相同 的 共享 密 钥 。 





和 这 个 把 戏 的 早 前 版 本 一 样 ， 伊 芙 被 排除 在 外 。 她 知道 这 两 个 公 
开 数 字 (2 和 11)〉 ， 她 也 知道 这 两 个 公开 一 私人 数字 (3 和 6) 。 但 她 不 
能 使 用 任何 知识 来 计算 共享 密 钥 数字 ， 因 为 她 不 能 获取 你 和 阿诺德 持 
有 的 秘密 成 分 (私人 数字 )。 





实际 中 的 公 钥 加 密 


关 料 混合 把 戏 的 最 终 版 本 一 一 运用 帘 和 钟 算 混 合 数 字 一 一 就 是 计 
算 机 在 互联 网 上 建立 共享 密 钥 的 实际 方法 之 一 。 本 章 描述 的 方法 被 称 
为 迪 菲 一 赫 尔 曼 密 钥 交换 机 制 。 这 一 机 制 以 怀特 菲 德 。 迪 菲 
(Whitfield Diffie) 和 马丁 。 赫 尔 曼 (Martin Hellman) 的 名 字 命 
名 ， 他 俩 于 1976 年 首次 发 表 了 这 一 算法 。 每 次 你 访问 一 个 安全 网 站 
(以 “https:” 而 非 “http:” 开 头 ) ， 你 的 计算 机 和 其 通信 的 网 站 服 
务 器 之 间 都 会 建立 一 个 共享 密 钥 ， 使 用 的 方法 是 迪 菲 一 赫 尔 曼 机 制 或 
工作 原理 类 似 的 蔡 代 方法 之 一 。 而 一 旦 建立 了 共享 密 钥 ， 这 两 台电 脑 
就 能 使 用 之 前 描述 的 相 加 算法 的 变 体 对 所 有 通信 进行 加 密 。 
公开 数字 


11. 2 









你 的 公开 一 私人 阿诺德 的 公开 一 私人 


数字 数字 





阿诺德 的 私人 





数字 数字 
现实 生活 数字 混合 第 四 步 : 只 有 你 和 阿 诺 通过 使 用 办 和 钟 


界 计算 将 如 箭头 所 示 的 元 素 组 合 起 来 。 





还 有 很 重要 的 一 点 值得 注意 ， 当 迪 菲 一 赫 尔 曼 机 制 在 现实 中 运用 
时 ， 实 际 涉 及 的 数字 要 远 比 我 们 在 例子 中 使 用 的 数字 大 。 我 们 使 用 的 
钟 大 小 很 小 11) ， 因 此 计算 起 来 就 很 简单 。 但 如 果 你 选择 的 公开 钟 
大 小 很 小 ， 那 么 可 能 的 私人 数字 也 会 很 小 〈 因 为 你 只 能 使 用 比 钟 大 小 
小 的 私人 数字 ) 。 而 这 也 意味 着 有 人 可 以 使 用 计算 机 试 出 所 有 可 能 的 
私人 数字 ， 直 到 找到 一 个 数字 生成 你 的 公开 一 私人 数字 。 在 上 面 的 例 
子 中 ， 只 有 11 个 可 能 的 私人 数字 ， 因 此 这 个 系统 非常 轻易 就 能 被 破 
解 。 相 反 ， 巡 菲 一 赫 尔 曙 机制 在 现实 中 运用 时 通常 会 使 用 有 几 百 个 数 
位 长 的 钟 大 小 ， 这 让 可 能 的 私人 数字 多 得 令 人 不 可 想象 〈 比 一 万 亿 的 
一 万 亿 次 方 还 多 得 多 ) 。 即 便 如 此 ， 也 需要 小 心 选 取 公 开 数 字 ， 以 确 
保 它 们 具有 正确 的 数学 性 质 一 一 如 果 你 感 兴趣 的 话 ， 请 看 下 页 的 文字 
框 。 











在 为 迪 菲 一 赫 尔 受 机 制 选择 一 个 钟 大 小 和 基数 时 ， 钟 大 小 和 基数 必须 满足 特定 的 数 
学 性 质 。 


本 章 描 述 的 迪 菲 一 赫 尔 曼 方 法 只 是 通过 (电子 ) 明信片 通信 的 多 
种 绝妙 技巧 之 一 。 计 算 机 科学 家 们 称 迪 菲 一 赫 尔 曙 方法 为 密 钥 交换 算 
法 (key exchange algorithm) 。 其 他 公 钥 算法 的 运作 方式 不 同 ， 能 
让 你 使 用 接收 方 宣布 的 公开 信息 ， 直 接 向 洪 在 的 接收 方 加 密 一 条 消 
息 。 相 反 ， 密 钥 交 换算 法 能 让 你 使 用 来 自 接收 方 的 公开 信息 ， 建 立 一 
个 共享 密 钥 ， 但 加 密 过 程 通过 加 法 把 戏 来 完成 。 对 于 互联 网 上 绝 大 部 





分 通信 而 言 ， 后 面 的 选项 一 一 我 们 在 本 章 中 了 解 到 的 这 种 方法 一 一 要 
更 容易 让 人 接受 ， 因 为 它 需 要 的 计算 能 力 要 少 很 多 。 





但 也 有 一 些 程序 需要 用 到 完整 的 公 钥 加 密 。 这 类 程序 中 最 有 趣 的 
可 能 要 算数 字 签 名 了 ， 我 们 将 在 第 九 间 谈 到 它 。 在 你 阅读 第 九 章 时 会 
发 现 ， 完 整 版 公 钥 加 密 的 思想 类 似 于 我 们 已 经 了 解 到 的 : 机 密 信 息 和 
公开 信息 用 一 种 在 数学 上 不 可 逆 的 方式 “混合 ”在 一 起 ， 就 像 混 合 在 
一 起 的 颜料 一 样 ， 再 也 分 不 开 。 最 著名 的 公 角 加密 系 统 是 RSA， 这 个 名 
字 由 首次 发 表 该 系统 的 三 位 发 明 者 姓 的 首 字 母 组 合 而 成 : 罗 纳 德 。 李 
维 斯 特 (Ronald Rivest) 、 了 阿迪。 沙 米尔 (Adi Shamir) 和 和 雷 奥 纳 德 
。 阿 德尔 曼 (Leonard M. Adlemen) 。 第 九 章 用 RSA 作 为 解释 数字 签名 
如 何 运 行 的 主要 例子 。 


在 这 些 早期 公 钥 算 法 发 明 的 背后 ， 都 有 一 个 迷人 而 复杂 的 故事 。 
迪 菲 和 赫 尔 曼 的 确 是 发 表 迪 菲 一 赫 尔 曼 机 制 的 第 一 批 人 ， 时 间 是 1976 
年 。 李 维 斯 特 、 沙 米尔 和 阿 德 尔 曼 也 的 确 是 发 表 RSA 的 第 一 批 人 ， 时 间 
是 1978 年 。 但 这 并 不 是 故事 的 全 部 ! 人 们 后 来 发 现 ， 英 国政 府 在 数 年 
前 就 已 经 知道 类 似 系统 。 不 笠 的 是 ， 那 些 发 明 迪 菲 一 赫 尔 受 机 制 和 RSA 
的 先驱 们 是 英国 政府 通信 实验 室 GCHQ 的 数学 家 。 他 们 工作 的 结果 被 记 
录 在 内 部 机 密 文 件 中 ， 直 到 1997 年 才 解 密 。 





RSA、 迪 菲 一 赫 尔 曼 机 制 和 其 他 公 钥 加 密 系 统 不 仅仅 是 绝妙 的 思 
想 。 它 们 还 发 展 成 了 商业 技术 和 互联 网 标准 ， 对 商业 和 个 人 有 着 极其 
重要 的 意义 。 没 有 公 钥 加 密 ， 我 们 每 天 使 用 的 绝 大 部 分 在 线 交 易 都 不 
可 能 安全 地 完成 。RSA 的 发 明 者 在 20 世 纪 70 年 代为 自己 的 系统 申请 了 专 
利 ， 而 他 们 的 专利 下 到 2000 年 年 末 才 失效 。 在 专利 失效 的 那天 晚上 ， 
美国 旧金山 市 的 美国 音乐 大 剧院 举行 了 一 次 庆祝 晚会 一 一 也 许 是 为 庆 
祝 公 钥 加 蜜 将 永久 为 人 们 服务 这 一 事实 。 














1. 对 于 了 解 计算 机 数字 系统 的 人 而 言 ， 我 在 这 里 说 的 是 小 数位 数 ， 而 非 二 进 制 数 。 对 
于 了 解 对 数 的 人 而 言 ， 将 二 进 制 数 转化 为 小 数位 数 的 转换 比例 30% 来 自 于 log102=: 
0. 3。 





第 五 章 ” 纠 错 但 一 一 目 纠正 的 错误 


告诉 一 个 人 他 犯 了 错 是 一 回 事 ， 让 他 掌握 真 
理 则 是 另 一 码 事 。 





约翰 。 洛 克 (John Locke) ， 
《人 类 理智 论 》 (Essay Concerning Human 
Understanding) 


如 今 ， 我 们 已 习惯 于 在 有 需要 时 随时 使 用 计算 机 。20 世 纪 40 年 代 
在 贝尔 电话 公司 实验 室 工 作 的 研究 员 理 查 德 。 汉 明 (Richard 
Hamming) 就 没 这 么 幸运 了 : 其 他 部 门 使 用 着 他 所 需要 的 公司 计算 机 ， 
只 有 周末 才 轮 到 他 用 。 因 此 ， 你 可 以 想象 ， 由 于 计算 机 在 读 取 自身 数 
据 时 出 错 从 而 导致 频繁 崩 演 后 ， 他 有 多 么 泪 背 。 汉 明 谈 到 这 个 问题 时 
是 这 样 说 的 : 


我 要 轮 两 周 才能 进去 一 次 ， 却 发 现 我 所 有 的 东西 都 被 清空 
了 ， 什 么 都 没 得 到 。 我 真 的 很 生气 ， 因 为 我 想 要 这 些 答案 ， 而 且 
还 浪费 两 个 周末 的 时 间 。 于 是 我 说 : “去 他 的 ， 如 果 计 算 机 能 侦 
测 到 错误 ， 为 什么 它 不 能 对 错误 定位 并 进行 纠正 ? ” 





要 说 明 发 明 纠 错 码 的 必要 性 ， 还 有 男 外 几 起 很 鲜明 的 例子 。 汉 明 
很 快 就 创造 了 第 一 批 纠 错 码 : 一 种 近乎 神奇 的 能 侦 测 并 纠正 计算 机 数 
据 中 错误 的 算法 。 没 有 纠 错 码 ， 我 们 的 计算 机 和 通信 系统 会 比 现在 慢 
很 多 ， 功 能 上 弱 许 多 ， 可 靠 性 也 会 差 很 多 。 





错误 侦 测 及 纠正 的 需求 


计算 机 有 三 项 基本 工作 。 最 重要 的 工作 是 执行 计算 ， 即 给 予 计算 
机 一 些 输入 数据 ， 计 算 机 必须 用 茶 种 方法 转化 数据 ， 并 得 出 一 个 有 用 
的 答案 。 但 如 果 没 有 计算 机 执行 的 另外 两 项 非常 重要 的 工作 : 存储 数 
据 和 传输 数据 ， 计 算 答 案 的 能 力 基本 上 也 没 用 。 《计算 机 通 冲 在 内 存 
和 磁盘 驱动 器 上 存储 数据 ， 基 本 上 是 通过 互联 网 传输 数据 。) 要 深入 
理解 这 一 点 ， 想 象 一 台 既 不 能 存储 也 不 能 传输 信 








恩 的 计算 机 。 这 样 的 计算 机 自然 不 会 有 什么 用 。 的 确 ， 你 可 以 做 
一 些 复 林 计算 (比如 ， 准 备 一 份 复杂 的 财务 报表 ， 详 细 说 明 公司 预 
算 ) ， 但 你 不 能 将 结果 发 送 给 同事 ， 甚 至 不 能 保存 结果 以 便 返 回 继 续 
操作 。 因 此 ， 传 输 和 存储 数据 对 现代 计算 机 是 真正 的 至 关 重 要 。 








但 传输 和 存储 数据 要 面临 一 个 巨大 挑战 : 数据 必须 丝 坚 无 圭一 一 
因为 在 许多 情况 下 ， 哪 怕 一 丁点 错误 也 会 让 数据 变 得 坚 无 用 处 。 作 为 
人 ， 我 们 也 熟悉 在 不 出 错 的 情况 下 存储 和 传输 信息 的 需求 。 比 如 ， 如 
果 你 写 下 茶 人 的 电话 号 码 ， 按 正确 的 顺序 无 误 地 记录 下 每 位 数 至 关 重 
要 。 哪 由 其 中 有 一 位 数 出 错 ， 那 个 电话 号 码 对 你 或 其 他 人 都 坚 无 用 
处 。 在 一 些 情况 中 ， 数 据 出 错 的 后 果 要 比 坚 无 用 处 更 糟 。 比 如 ， 人 存储 
一 个 计算 机 软件 的 文件 中 有 一 个 错误 ， 这 会 导致 程序 裔 溃 或 让 程序 做 
一 些 原本 不 应 该 做 的 事 。 程 友 甚 至 可 能 会 删除 一 些 重 要 文件 ， 或 在 
你 保存 工作 前 磐 痊 。) 而 在 一 些 计算 机 化 的 金融 记录 中 出 错 ， 可 能 会 
导致 实际 的 金钱 损失 。 假如 你 以 为 自己 在 买 每 股 5. 34 美 元 的 股票 ， 
而 这 只 股票 的 实际 价格 是 每 股 8. 34 美 元 。) 











不 过 ， 人 们 需要 存储 的 无 误 信息 相对 较 少 ， 而 且 在 知道 一 些 信息 
一 一 如 银行 账号 、 密 码 、 电 子 邮 件 地 址 等 一 一 很 重要 的 情况 下 ， 通 过 
仔细 检查 避免 错误 也 不 是 太 难 。 而 男 一 方面 ， 计 算 机 要 无 误 地 存储 和 
传输 的 信息 量 绝对 是 海量 。 为 了 让 你 对 信息 量 级 有 概念 ， 想 想 下 列 情 








形 。 假 设 你 有 一 个 存储 容量 是 100 GB 的 计算 设备 。 (在 写作 本 书 时 ， 
这 是 低 价 笔记 本 电脑 的 标准 容量 。) 这 100 GB 相当 于 1 500 万 页 文本 。 
因此 ， 即 便 计算 机 存储 系统 每 100 万 页 犯 一 个 错误 ， 在 设备 容量 填 满 时 
《平均 ) 也 会 有 15 个 错误 。 这 一 情况 也 适用 于 传输 数据 : 如 果 你 下 载 
一 个 20 兆 的 软件 ， 你 的 计算 机 每 接收 100 万 个 字符 就 会 出 错 一 次 ， 下 载 
的 软件 中 也 会 有 请 20 个 错误 一 一 在 你 不 曾 预料 到 的 情况 下 ， 每 一 个 错 
误 都 有 可 能 导致 成 本 巨大 的 朋 演 。 





这 个 故事 的 教训 是 ， 对 于 计算 机 而 言 ， 精 确 度 达到 99. 999 9% 也 还 
是 不 够 好 。 计 算 机 必须 能 在 存储 和 传输 数 十 亿 块 信息 的 情况 下 ， 不 犯 
任何 一 个 错误 。 但 和 其 他 设备 一 样 ， 计 算 机 也 必须 处 理 通信 问题 。 电 
话 就 是 个 好 例子 : 显然 电话 不 能 完美 地 传输 信息 ， 因 为 电话 对 话 经 常 
要 遭遇 失真 、 静 电 噪 声 或 其 他 类 型 的 噪声 。 但 电话 并 不 是 遭遇 这 类 情 
况 的 唯一 设备 : 电线 受 所 有 种 类 的 波动 影响 ， 无 线 通信 无 时 无 刻 不 受 
干扰 ， 硬 盘 、CD (激光 唱 盘 ) 和 DVD (数字 视频 光盘 〉 等 物理 媒体 会 由 
于 灰尘 或 其 他 物理 干扰 的 影响 ， 被 划 伤 、 受 损 或 不 能 读 取 。 面 临 如 此 
显然 的 通信 错误 ， 我 们 怎么 能 希望 实现 数 十 亿 分 之 一 的 错误 率 呢 ? 本 
章 将 揭示 让 这 一 奇迹 发 生 的 绝妙 计算 机 科学 背后 的 思想 。 结 果 证 明 ， 
如 果 你 运用 正确 的 把 戏 ， 即 便 是 极端 不 可 靠 的 通信 频道 也 可 以 以 极 低 
的 错误 率 传输 数据 。 而 且 这 个 错误 率 是 如 此 之 低 ， 以 至 于 在 实际 当 
中 ， 错 误 基 本 上 完全 被 消除 了 。 


Ei 


要 通过 一 个 不 可 靠 的 频道 进行 可 靠 的 通信 ， 其 中 最 根本 的 把 戏 是 
我 们 都 熟悉 的 : 要 确保 一 些 信 息 正 确 地 传输 ， 你 只 需 重 复 几 次 该 信 
恩 。 如 果菜 人 在 电话 连接 很 糟 糙 的 情况 下 ， 念 给 你 听 一 个 电话 号 码 或 
银行 账号 ， 你 极 有 可 能 会 要 求 对 方 至 少 重 复 一 次 ， 以 便 确 认 号 码 无 


误 。 














计算 机 也 能 做 同样 的 事情 。 假 设 银行 的 一 台 计 算 机 试图 通过 互联 
网 把 你 的 账户 余额 传 给 你 。 你 的 账户 余额 是 5 213.75 美 元 ， 但 不 幸 的 
是 ， 网 络 不 稳定 ， 每 一 个 数字 都 有 20% 的 概率 变 成 其 他 东西 。 因 此 ， 当 
你 的 账户 余额 第 一 次 传输 过 来 时 ， 显 示 的 可 能 是 5 293. 75 美 元 。 很 显 
然 ， 你 没 办 法 知道 余额 是 否 正确 。 所 有 的 数字 都 有 可 能 正确 ， 但 其 中 
一 个 或 以 上 的 数字 可 能 出 错 ， 而 你 没有 办 法 分 辨 。 但 通过 运用 重复 把 
戏 (the reprtition trick) ， 你 能 很 好 地 推测 出 真正 的 余额 。 假 设 
你 请 求 传 出 余额 5 次 ， 并 收 到 了 以 下 反馈 : 








传输 1: $ 5 293 。75 
传输 2: $ 5 2 13 。 75 
传输 3: $ 5 2 13 。11 


传输 4: $ 5 4 4 3 。 75 





传输 5: $ 7 2 18 。 75 


注意 ， 其 中 一 些 传输 不 止 一 位 数 出 错 ， 也 有 一 次 传输 传输 2〉 没 
有 出 现 错误 。 关 键 点 在 于 ， 你 没 办 法 知道 哪儿 有 错 ， 因 此 也 没 办 法 将 
传输 2 挑选 为 正确 的 传输 。 相 反 ， 你 可 以 做 的 事情 就 是 单独 检查 每 个 数 
字 ， 寻 找 同 一 数字 的 所 有 传输 ， 然 后 选 出 出 现 最 频繁 的 那个 值 。 下 面 
列 出 了 所 有 传输 项 ， 节 末尾 是 出 现 频率 最 高 的 数字 : 








传输 l: $5293 。75 
传输 2: $5213。75 


传输 3: $5213。11 





传输 4: $5443 。75 


传输 5: $7218 。75 
出 现 频率 最 高 的 数字 : $ 5 213 。75 


要 把 这 个 概念 完全 弄 清楚 ， 让 我 们 来 看 些 例子 。 检 查 传 输 中 的 第 
一 位 数 ， 在 传输 1 4 中 ， 第 一 位 数 都 是 5， 而 传输 5 的 第 一 位 数 是 7。 换 
句 话 说 ， 第 一 位 数 在 4 次 传输 中 是 “5”， 而 只 在 一 次 传输 中 是 “7”。 
因此 ， 尽 管 你 不 能 完全 肯定 ， 但 你 银行 余额 第 一 位 数 的 值 最 有 可 能 是 





5。 转 到 第 二 位 数 ， 我 们 看 到 2 出 现 了 4 次 ， 而 4 出 现 了 1 次 ， 因 此 2 最 有 
可 能 是 第 二 位 数 。 第 三 位 数 有 点 有 趣 ， 因 为 有 三 种 可 能 性 : 1 出 现 了 3 


次 ，9 出 现 了 1 次 ，4 出 现 了 1 次 。 但 同样 的 原则 也 适用 ，1 是 最 有 可 能 为 
真 的 值 。 通 过 对 所 有 数字 使 用 这 种 方法 ， 你 可 以 得 到 完整 银行 余额 的 
最 终 推测 : 5213. 75 美 元 ， 而 这 也 正 是 正确 的 值 。 








这 种 方法 很 简单 。 我 们 已 经 解决 这 个 问题 了 吗 ? 在 杂种 程度 上 ， 
是 的 。 但 你 也 许 会 对 两 件 事 感 到 不 满 。 首 先 ， 这 个 信道 的 错误 紊 只 有 
20%， 而 在 一 些 情况 中 ， 计 算 机 需要 在 错误 率 远 高 于 20% 的 信道 中 通 
信 。 其 次 ， 也 许 要 更 严肃 些 ， 上 面 例子 的 最 终 答 案 恰好 是 正确 的 ， 但 
不 能 保证 答案 会 永远 都 正确 : 它 只 是 一 个 推测 ， 基 于 我 们 的 看 法 一 一 
认为 它 才 是 最 有 可 能 为 真 的 银行 余额 。 笠 运 的 是 ， 这 两 件 事 都 很 容易 
处 理 : 我 们 只 需 增 加 重新 传输 的 次 数 ， 直 到 可 徘 性 高 到 让 我 们 满意 为 
i 

















比如 ， 假 设 最 后 一 个 例子 中 的 错误 率 是 50% 而 不 是 20%。 你 可 以 要 
求 银 行 传输 1 000 次 余额 ， 而 不 是 5 次 。 让 我 们 集中 关注 第 一 位 数 ， 因 
为 其 他 数 的 工作 原理 都 一 样 。 由 于 错误 率 是 50%， 大 约 有 一 半 的 数 会 正 
确 地 传输 为 5， 但 另 一 半 会 变 成 其 他 随机 值 。 因 此 5 会 出 现 约 500 次 ， 其 
他 每 个 数 (0~4 和 6 9， 都 会 出 现 50 次 左右 。 数 学 家 们 能 计算 出 某 个 数 
出 现 的 次 数 比 5 多 的 概率 : 即便 使 用 这 个 方法 每 秒 传输 一 个 新 的 银行 余 
额 ， 我 们 也 得 等 上 数 万 亿 年 才能 猜 错 银行 余额 。 这 个 故事 的 重点 在 
于 ， 通 过 重复 一 条 不 可 靠 的 消息 足够 多 次 ， 你 可 以 让 消息 的 可 靠 性 高 


到 让 你 满意 为 止 。《〈 在 这 些 例子 中 ， 我 们 假设 错误 随机 发 生 。 相 反 ， 
如 果 一 个 恶意 实体 故意 干扰 传输 ， 并 选择 制造 哪些 错误 ， 重 复 把 戏 都 
要 不 安全 得 多 。 后 面 介 绍 的 一 些 代 码 在 对 抗 这 类 恶意 攻击 时 都 表现 民 
二 





因此 ， 通 过 使 用 重复 把 戏 ， 不 可 靠 通信 的 问题 能 够 被 解决 ， 错 误 
率 基 本 上 能 被 消灭 。 不 羊 的 是 ， 重 复 把 戏 对 于 现代 计算 机 系统 来 说 还 
不 够 好 。 当 传输 像 银行 余额 这 样 的 小 块 数据 时 ， 重 新 传输 1 000 次 耗费 
并 不 多 ， 但 在 下 载 一 个 大 型 软件 《假设 有 200 兆 ) 时 ， 显 然 传 输 1 000 
份 该 软件 完全 不 现实 。 很 明显 ， 计 算 机 需要 使 用 一 些 比重 复 把 戏 更 成 
郊 的 方法 。 


用 元 全 可 区 


即便 计算 机 不 使 用 上 面 描述 到 的 重复 把 戏 ， 我 们 也 在 本 章 一 开始 
介绍 它 ， 以 便 让 我 们 能 了 解 实际 生活 当中 可 靠 通 信 最 基本 的 原则 。 这 
条 基本 原则 是 ， 你 不 能 只 发 送 原始 消息 : 你 要 发 送 一 些 多 余 的 东西 以 
增加 可 靠 性 。 在 重复 把 戏 的 例子 中 ， 你 发 送 的 额外 东西 就 是 更 多 份 原 
消息 。 但 实际 情况 是 ， 要 提高 可 靠 性 ， 你 还 有 其 他 许多 多 余 的 东西 
可 以 发 送 。 计 算 机 科学 家 们 称 这 些 多 余 的 东西 为 “元 余 ”。 有 时 候 ， 
抑 余 被 附加 在 原始 消息 上 。 在 研究 下 一 个 把 戏 《 校 验 和 把 戏 ) 时 ， 我 
们 会 看 到 这 种 “附加 ”技术 。 但 首先 ， 我 们 要 研究 另 一 种 添加 元 余 的 
方法 。 这 种 方法 实际 上 是 把 原始 消息 转换 成 一 条 更 长 的 元 余 消 息 一 一 
原始 消息 会 被 删除 ， 取 而 代 之 的 是 一 条 更 长 的 不 同 消息 。 当 收 到 更 长 
的 消息 时 ， 你 就 能 将 其 转换 回 原始 消息 ， 即 便 这 条 元 余 消 息 在 糟糕 的 
信道 中 传输 时 被 破坏 了 。 我 们 将 这 种 方法 简单 地 称 为 元 余 把 戏 。 




















举 个 例子 更 容易 说 清 。 之 前 我 们 尝试 将 你 的 银行 余额 5 213. 75 美 
元 通过 一 条 不 可 靠 的 信道 传输 ， 这 条 信道 有 20% 的 概率 随机 丛 换 数字 。 


和 尝试 只 传输 “$5 213.75” 不 同 的 是 ， 让 我 们 把 这 个 数字 转换 成 一 
条 包含 相同 信息 的 更 长 的 〈 因 此 也 是 “元 余 的 ”) 消 轧 。 在 这 个 例子 
中 ， 我 们 用 英语 单词 简单 地 把 余额 拼 出 来 : 


five two one three point Seven five 





我 们 再 假设 ， 由 于 信道 糟糕 ， 这 条 消 妃 中 约 20% 的 字符 会 变 成 其 他 
随机 字符 。 这 条 消息 最 终 可 能 变 成 : 





fiqe kwo one thrxp point sivpn fivd 


尽管 读 起 来 有 点 讨厌 ， 但 我 认为 ， 任 何 知 道 英 语 的 人 都 能 猜 出 ， 
这 条 人 锐 破 坏 的 消息 代表 真正 的 银行 余额 5 213. 75 美 元 ， 这 点 你 应 该 会 
赞同 。 








关键 在 于 ， 因 为 我 们 使 用 了 一 条 元 余 消 轧 ， 对 消息 中 的 任何 单个 
变化 进行 可 靠 侦 测 及 纠正 变 得 可 行 。 如 果 我 告诉 你 ， 字 母 “fiqe” 代 
表 英 语 中 的 一 个 数字 ， 且 只 有 一 个 字母 被 蕉 换 了 ， 你 绝对 能 肯定 原始 
消 妃 中 的 单词 是 “five”， 因 为 除 此 以 外 再 也 没有 英语 数字 能 通过 著 
换 “fiqe” 中 一 个 字母 获得 了 。 与 此 形成 鲜明 对 比 的 是 ， 如 果 我 告诉 
你 ， 数 字 “367” 代 表 了 一 个 数 ， 但 其 中 一 个 数字 锐 丛 换 了 ， 你 没 办 法 
知道 原始 数字 是 多 少 ， 因 为 这 条 消息 中 没有 元 余 。 








尽管 我 们 还 没 弄 清 见 余 究竟 是 如 何 工作 的 ， 但 却 已 经 知道 它 和 让 
消息 变 长 有 关 ， 消 息 的 每 一 部 分 都 应 该 符合 某 种 已 知 模 式 。 通 过 这 种 
方法 ， 任 何 变 化 都 能 首先 被 识别 (因为 并 不 符合 已 知 模式 ) ， 然 后 被 
纠正 (通过 改变 错误 使 其 符合 模式 ) 。 计 算 机 科学 家 称 这 些 已 知 模式 
为 “代码 字 ” (code words) 。 在 上 面 的 例子 中 ， 代 码 字 就 是 用 英语 
写 的 数字 ， 如 “one”、“two”、“three” 等 。 








现在 是 时 候 解 释 见 余 把 戏 (the redundany trick) 究竟 是 如 何 运 
作 的 了 。 消 息 由 “符号 ”一 一 计算 机 科学 家 是 这 么 称呼 的 一 一 组 成 。 
在 我 们 这 个 简单 例子 中 ， 符 号 是 数字 0 9 我 们 会 忽略 美元 符号 以 及 小 
数 点 ， 让 事情 变 得 更 简单 ) 。 每 个 符号 都 被 指定 了 一 个 代码 字 。 在 这 
个 例子 中 ， 符 号 1 被 指定 的 代 人 码 字 是 “one”，2 被 指定 的 代 人 码 字 是 
“two”， 依 此 类 推 。 


要 传输 一 条 信息 ， 你 首先 要 找 出 每 个 符号 ， 并 将 符号 转译 成 对 应 
的 代码 字 。 其 次 ， 你 将 转换 的 消息 通过 不 可 靠 信 道 发 送 。 当 消息 被 接 
收 到 时 ， 你 查看 消息 的 每 个 部 分 ， 检 查 其 是 否 为 有 效 的 代码 字 。 如 果 
它 是 有 效 的 (如 “five”) ， 你 只 需 将 其 转换 为 相应 的 符号 〈 如 5) 即 
可 。 如 果 其 不 是 有 效 的 代码 字 (如 “fiqe”) ， 你 要 找 出 其 和 哪个 代 
码 字 最 匹配 〈 这 个 例子 中 就 是 “five”) ， 并 将 那个 无 效 代 码 字 转 换 
成 相应 的 符号 (也 就 是 5〉。 使 用 这 些 代 码 的 例子 如 下 图 所 示 : 








编码 
1 一 一 one 
2 一 一 two 
3 一 一 three 
4 一 一 four 


解码 
five 一 一 ”5 (完全 匹配 ) 
fiqe 一 一 5 (最 接近 的 匹配 ) 


twe 一 一 2 (最 接近 的 匹配 ) 
使 用 英文 字 表 示 数 字 的 代码 





这 就 是 全 部 过 程 。 实 际 上 ， 计 算 机 在 存储 和 传输 信息 时 会 一 直 用 
到 这 个 元 余 把 戏 。 和 我 们 在 例子 中 使 用 的 英语 相 比 ， 数 学 家 们 已 经 找 
到 了 更 漂亮 的 代码 字 ， 但 可 靠 计 算 机 通信 的 工作 原理 仍然 相同 。 下 页 
的 图 就 列举 了 一 个 真实 例子 。 这 个 例子 被 计算 机 科学 家 们 称 为 (7， 
4) 汉 明 代码 (Hamming code) ， 这 是 理 查 德 。 汉 明 于 1947 年 在 贝尔 实 
验 室 发 明 的 代码 之 一 ， 为 了 处 理 之 前 说 过 的 周末 计算 机 骨 涡 。 〈 由 于 
贝尔 实验 室 的 要 求 ， 汉 明 申 请 了 这 些 代 码 的 专利 ， 直 到 3 年 后 的 1950 人 年 
才 发 表 。) 和 我 们 在 前 面 用 到 的 代码 相 比 ， 汉 明代 码 最 明显 的 区 别 是 
所 有 事情 都 通过 0 和 1 完成 。 因 为 计算 机 存储 和 传输 的 每 一 块 数据 都 会 
被 转化 为 0Oo 和 1 的 字符 串 ， 现 实生 活 中 使 用 的 所 有 代码 也 限 用 这 两 个 数 
字 。 








编码 
0000 一 一 0000000 
0001 一 一 0001011 
0010 一 一 0010111 
0011 一 一 0011100 
0100 一 一 0100110 


解码 
0010111 一 一 0010 (完全 匹配 ) 
0010110 一 一 ”0010 (最 接近 的 匹配 ) 


1011100 一 一 0011 (最 接近 的 匹配 ) 
计算 机 使 用 的 真实 代码 。 计 算 机 科学 家 们 称 这 一 代码 为 (7, 4) 汉 明 代码 。 注 意 ， 
“编码 ” 框 中 只 列 出 了 16 个 可 能 的 四 位 数 输 入 中 的 5 个 。 其 余 的 输入 也 都 有 相应 的 代 
码 字 ， 但 它们 在 这 里 被 省 略 了 。 


除 此 以 外 ， 所 有 事情 都 和 前 面 一 模 一 样 。 在 编码 时 ， 每 一 组 4 位 数 
字 都 加 入 了 元 余 ， 产 生 了 一 个 7 位 数 的 代码 字 。 在 解码 时 ， 你 首先 要 为 
接收 到 的 7 位 数 寻找 完全 匹配 ， 如 果 寻 找 完 全 匹配 失败 ， 就 选择 最 接近 
的 匹配 。 你 也 许 会 担心 ， 现 在 我 们 在 和 0 及 1 打交道 ， 也 许 相 近 的 匹配 
不 只 一 个 ， 最 后 可 能 会 选择 错误 的 解码 。 不 过 ， 这 种 特殊 代码 的 设计 
非常 精巧 ,7 位 数 代 码 字 中 的 任何 错误 都 能 得 到 确定 无 疑 的 纠正 。 在 设 
计 带 有 这 种 属性 的 代码 背后 是 一 些 美丽 的 数学 ， 但 在 这 里 ， 我 们 不 会 
深究 其 细 市 。 





值得 强调 的 是 ， 为 什么 元 余 把 戏 在 实际 应 用 中 要 比重 复 把 戏 更 受 
欢迎 。 主 要 原因 是 这 两 个 把 戏 的 相对 成 本 。 计 算 机 科学 家 们 使 用 “ 杂 
项 ” (overhead) 衡量 纠 错 系统 的 成 本 。 杂 项 就 是 为 确保 消 轧 被 正确 
接收 而 发 送 的 多 余 信息 。 重 复 把 戏 的 杂项 数量 巨大 ， 因 为 你 必须 发 送 
数 份 完整 消 恩 。 见 余 把 戏 的 杂项 取决 于 你 使 用 的 代码 字 的 具体 类 型 。 
上 面 的 例子 使 用 英语 作为 代码 字 ， 元 余 消 四 有 35 个 字母 长 ， 而 原始 消 
恩 只 含有 6 个 数字 ， 因 此 元 余 把 戏 这 一 特殊 应 用 的 杂项 也 很 大 。 但 数学 
家 们 已 经 找到 了 元 余 度 低 很 多 的 代码 字 ， 而 且 其 在 侦 测 错误 的 概率 上 
也 效率 怀 人 。 这 些 代 码 字 的 低 洒 项 也 是 计算 机 使 用 元 余 把 戏 一 一 而 非 
重复 把 戏 一 一 的 原因 。 











到 目前 为 止 ， 我 们 进行 的 讨论 部 使 用 利用 代码 传输 信息 的 例子 ， 
但 我 们 讨论 过 的 所 有 事情 都 能 很 好 地 在 存储 信息 的 任务 中 应 用 。CD、 
DVD 和 计算 机 硬盘 都 极度 依赖 纠 错 码 ， 以 实现 我 们 在 现实 中 观察 到 的 超 
级 可 靠 性 。 


由 校 验 和 把 戏 


目前 为 止 ， 我们 研究 了 同时 侦 测 和 纠正 数据 中 错误 的 方法 。 重 复 
把 戏 和 元 余 把 戏 都 属于 此 类 方法 。 但 还 有 另外 一 种 可 能 的 方法 能 解雇 


整个 问题 : 我 们 可 以 先 不 管 纠 错 ， 而 是 将 精力 集中 在 侦 测 错误 上 。 
(017 世 纪 的 哲学 家 约翰 。 洛 元 对 错误 侦 测 和 错误 纠正 之 间 的 区 别 有 清 
楚 地 认识 一 一 正如 你 在 本 章 开篇 引言 中 所 看 到 的 。〉 对 于 许多 软件 而 
言 ， 只 侦 测 到 一 个 错误 就 足够 了 了， 因为 如 果 你 侦 测 到 了 一 个 错误 ， 请 
求 再 发 送 一 份 数 据 即 可 。 而 且 你 可 以 一 直 请 求 新 拷贝 ， 直 到 得 到 完全 
无 误 的 找 贝 。 这 是 最 经 常 使 用 的 策略 。 比 如 ， 几 乎 所 有 互联 网 连接 都 
使 用 这 一 技术 。 我 们 称 这 一 方法 为 “ 校 验 和 把 戏 ” (The checksum 
trick) ， 这 么 命名 的 原因 很 快 束 会 明明 。 




















要 理解 校 验 和 把 戏 ， 假 设 我 们 所 有 消息 都 只 有 数字 组 成 会 更 方便 
些 。 这 是 一 个 非常 真实 的 假设 ， 因 为 计算 机 用 数字 存储 所 有 信息 ， 只 
有 在 向 人 展示 信息 时 ， 才 把 数字 转译 成 文本 或 图 像 。 不 过 ， 在 本 章 所 
有 的 例子 中 ， 任 何 对 消息 符 吕 的 特殊 选择 都 不 影响 本 章 摘 述 的 技术 ， 
理解 这 点 很 重要 。 有 时 候 使 用 数字 符号 〈 数 字 0 9) 更 方便 ， 而 有 时 候 
使 用 字母 符号 〈 字 母 a z) 要 更 加 方便 。 不 过 ， 不 管 是 使 用 哪 种 符号 ， 
我 们 都 能 就 这 些 符 号 之 间 的 一 些 转译 达成 一 致 。 比 如 ， 从 字母 转译 为 
数字 符 写 的 一 个 明显 例子 就 是 a 一 01、b 一 02、……… 0065 因此 我 
们 是 在 探究 一 项 传输 数字 消息 还 是 字母 消息 的 技术 就 变 得 无 关 紧 要 
了 ; 通过 首先 对 符号 进行 简单 的 固定 的 转译 ， 这 项 技术 稍 后 将 被 应 用 
在 任何 种 类 的 消息 上 。 




















到 这 里 ， 我 们 必须 了 解 校 验 和 究竟 是 什么 。 校 验 和 的 种 类 有 很 
多 ， 但 目前 我 们 将 痢 重 于 最 简单 的 那 种 校 验 和 一 一 我 们 称 之 为 “人 简单 
校 验 和 ” (simple checksum) 。 计 算 一 条 数字 消息 的 简单 校 验 和 的 确 
很 容易 : 你 只 需 将 消息 中 的 所 有 数字 相 加 ， 只 保留 结果 的 最 后 一 位 
数 ， 剩 下 的 数字 束 是 你 的 简单 校 验 和 。 比 如 : 假设 消息 是 : 





467506 


那么 所 有 数字 之 和 为 4+6+7+5+6 = 28， 但 我 们 只 保留 最 后 一 位 
数 ， 因 此 这 条 消息 的 简单 校 验 和 是 8。 


但 如 何 使 用 校 验 和 呢 ? 很 简单 : 你 只 需 在 发 送 原 始 消息 前 ， 将 原 
台 消 息 的 校 验 和 附加 到 消息 末尾 即 可 。 在 别人 接收 到 消息 后 ， 他 们 能 
再 计算 校 验 和 ， 并 和 你 发 送 的 校 验 和 比较 ， 看 是 否 正 确 。 换 句 话 说 ， 
他 们 “check”“【〔 校 验 ) 消息 的 “sum” (和 ) 一 一 这 就 是 术语 
“checksum”《〈 校 验 和 ) 的 由 来 。 继 续 说 上 面 的 例子 。 消 息 “46756?” 
的 简单 校 验 和 是 8， 因 此 我 们 这 样 来 传输 消息 及 其 校 验 和 ; 


467568 


现在 ， 接 收 消息 的 人 必须 知道 你 使 用 的 是 校 验 和 把 戏 。 假 设 他 们 
确实 知道 ， 他 们 就 能 立即 认 出 最 后 一 位 数 8 不 属于 原始 消息 ， 然 后 把 最 
后 一 位 数 放 一 边 ， 计 算 其 他 数 的 和 。 如 果 在 传输 这 条 消息 时 没有 出 现 
错误 ， 他 们 会 计算 4+6+7+5+6 = 28， 保 留 最 后 一 位 数 〈 也 就 是 8) ， 在 
将 最 后 一 位 数 和 之 前 放 到 一 边 的 校 验 和 比较 ， 看 是 否 相 等 (的 确 相 
等 ) ， 因 此 得 出 总 结 ， 消 息 正确 地 进行 了 传输 。 另 一 方面 ， 如 果 传 输 
消息 时 出 错 了 ， 这 时 会 发 生 什 么 ?假设 7 随机 变 为 3。 那 么 你 会 收 到 如 
下 消息 : 


463568 


你 将 8 放 到 一 边 以 备 后 续 比 较 ， 并 计算 校 验 和 为 4+6+3+5+6 = 24， 
只 保留 最 后 一 位 数 〈4) 。4 和 之 前 放 到 一 边 的 8 并 不 相等 ， 因 此 你 可 以 
肯定 消息 在 传输 途中 遭 到 了 破坏 。 这 时 ， 你 请 求 重 新 传输 消息 ， 直 到 
接收 到 新 拷贝 ， 然 后 再 次 计算 并 比较 校 验 和 。 你 可 以 一 直 这 么 做 ， 直 
到 得 到 一 条 校 验 和 正确 的 消息 为 止 。 








所 有 这 一 切 似乎 太 过 美好 ， 不 可 能 成 真 。 还 记得 吗 ? 一 个 纠 错 系 
统 的 “杂项 ” 融 是 在 发 送 消 息 本 身 以 外 要 发 送 的 额外 信息 量 。 好 吧 ， 
我 们 似乎 得 到 了 终极 低 杂 项 系统 ， 因 为 不 管 消 息 有 多 长 ， 我 们 只 需 多 
添加 一 位 数 《〈 校 验 和 ) 就 能 侦 测 错误 ! 








啊 ， 结 果 证 明 简 单 校 验 和 系统 太 过 美好 ， 不 能 成 真 。 简 单 校 验 和 
的 问题 是 : 上 面 描述 到 的 简单 校 验 和 最 多 只 能 在 消息 中 侦 测 出 一 错 
误 。 如 果 有 两 个 或 更 多 错误 ， 简 单 校 验 和 或 许 能 侦 测 到 它们 ， 但 也 有 
可 能 侦 测 不 到 。 让 我 们 来 看 看 这 个 问题 的 一 些 例子 : 


校 验 和 
原始 消息 46756 8 
有 一 处 错误 的 消息 16756 5 
有 两 处 错误 的 消息 15. 7 3G. . 禾 
有 两 处 (不 同 ) 错误 的 消息 2 8 7 5 6 8 


原始 消息 〈46756) 和 前 面 一 样 ， 其 校 验 和 也 没 变 〈8) 。 下 一 行 
的 消息 有 一 个 错误 (第 一 个 数 是 1 而 不 是 4) ， 其 校 验 和 为 5。 事 实 上 ， 
你 很 有 可 能 说 服 自己 ， 更改 任 何 单个 数字 都 会 导致 与 8 不 同 的 校 验 和 ， 
因此 你 保证 能 侦 测 到 消息 中 的 任何 单个 错误 。 要 证 明 这 一 点 永远 为 真 
并 不 难 : 如 果 只 有 一 个 错误 ,简单 校 验 和 绝对 能 保证 侦 测 到 它 。 





再 下 一 行 ， 我们 看 到 一 条 带 有 两 处 错误 的 消息 : 前 两 个 数 都 被 葵 
换 了 。 这 条 消息 的 校 验 和 恰好 是 4。 而 由 于 4 和 原始 校 验 和 8 不 同 ， 收 到 
这 条 消 恩 的 人 能 侦 测 到 出 现 了 一 个 错误 。 然 而 ， 最 后 一 行 束 遇 到 了 研 
烦 。 这 也 是 一 条 有 两 处 错误 的 消息 ， 也 是 前 两 位 数 出 错 。 但 出 错 的 两 
位 数 的 值 不 同 ， 而 且 这 条 有 两 处 错误 的 消息 的 校 验 和 恰好 也 是 8 一 一 和 
原始 校 验 和 一 样 ! 因此 接收 这 条 消息 的 人 将 不 能 侦 测 到 消息 中 有 错 
误 。 











幸运 的 是 ， 我 们 可 以 通过 对 校 验 和 把 戏 进 行 一 些微 调 来 解决 这 个 
问题 。 第 一 步 是 定义 一 种 新 的 校 验 和 。 让 我 们 称 这 种 新 的 校 验 和 为 
“阶梯 ” 校 验 和 “(staircase checksum) ， 因 为 这 个 名 字 有 助 于 通过 
想象 在 爬 楼 梯 进 行 计 算 。 想 象 你 处 于 一 个 楼 梯 的 底部 ， 楼 梯 台 阶 编号 





为 1、2、3…… 依 此 类 推 。 要 计算 阶梯 校 验 和 ， 你 像 之 前 一 样 把 数字 相 
加 ， 但 每 个 数 都 要 和 该 数字 所 在 位 阶 数 相 乘 ， 每 个 数 都 比 前 一 个 数 大 
一 个 位 阶 。 最 后 ， 你 只 保留 最 后 一 位 数 ， 和 简单 校 验 和 一 样 。 因 此 ， 
如 果 消 息 是 : 


467506 
和 之 前 类 似 ， 阶 梯 校 验 和 通过 首先 计算 阶梯 和 来 结算 : 


(1 XxX 4) + (2X6) + (3X 7) + (4X 5) + (5 
x 6) 





= 87 


然后 只 保留 最 后 一 位 数 ， 也 就 是 7。 因 此 “46756” 的 阶梯 校 验 和 
为 7。 


所 有 这 一 切 想 说 明 什么 ?如 果 你 同时 使 用 简单 校 验 和 及 阶梯 校 验 
和 ， 那 么 你 就 保证 能 侦 测 到 任何 消息 中 两 处 错误 。 因 此 ， 用 我 们 新 的 
校 验 和 把 戏 来 传输 原始 消息 会 多 出 两 个 数字 : 首先 是 简单 校 验 和 ， 其 
次 是 阶梯 校 验 和 。 比 如 ， 消 息 “46756” 会 以 : 








4675687 


传输 。 当 你 收 到 消息 时 ， 你 仍然 必须 提前 知道 会 运用 哪些 把 戏 。 
但 假设 你 确实 知道 ， 那 么 检查 错误 就 像 使 用 简单 校 验 和 一 样 容易 。 在 
这 个 例子 中 ， 你 先 把 最 后 两 个 数 〈 简 单 校 验 和 8 及 阶梯 校 验 和 7) 放 一 
边 ， 然 后 计算 消息 其 余部 分 的 简单 校 验 和 《46756 的 简单 校 验 和 是 
8) ， 阶 梯 校 验 和 也 要 计算 (结果 为 7) 。 如 果 两 个 计算 后 的 校 验 和 值 





和 发 送 的 两 个 校 验 和 匹配 (这 个 例子 中 的 两 个 值 的确 匹 配 )， 你 就 可 
以 保证 这 条 消息 要 么 是 正确 的 ， 要 么 至 少 有 三 处 错误 。 











下 一 张 表 显示 了 这 两 种 校 验 和 的 实际 运用 情况 。 这 张 表 和 前 面 那 
张 表 几乎 一 模 一 样 ， 除 了 在 每 行 末尾 加 上 了 阶梯 校 验 和 ， 以 及 新 加 了 
一 行 作为 额外 的 例子 。 当 消 妃 中 有 一 处 错误 时 ， 我 们 发 现 这 条 消息 的 
简单 校 验 和 及 阶梯 校 验 和 均 与 原始 消息 的 不 同 《〈 简 单 校 验 和 是 5 而 不 是 
8， 阶 梯 校 验 和 是 4 而 不 是 7) 。 当 消 轧 中 有 两 处 错误 时 ， 有 可 能 两 个 校 
验 和 值 都 不 相同 ， 如 表 中 第 3 行 的 简单 校 验 和 是 4 而 不 是 8， 阶 梯 校 验 和 
是 2 而 不 是 7。 但 正如 我 们 已 经 发 现 的 ， 有 时 候 当 消 轧 中 有 两 处 错误 
时 ， 该 消息 的 简单 校 验 和 不 会 改变 。 表 中 第 4 行 就 是 这 种 情况 的 一 个 例 
子 ， 其 简单 校 验 和 仍然 是 8。 但 因为 阶梯 校 验 和 和 原始 消 轧 的 不 同 《9 
而 不 是 7) ， 我 们 仍然 知道 这 条 消 妃 有 误 。 在 表 中 最 后 一 行 ， 我 们 能 看 
到 还 有 另外 一 种 情况 : 这 条 含有 两 处 错误 的 消息 的 简单 校 验 和 不 同 
是 9 而 不 是 8) ， 但 其 阶梯 校 验 和 却 一 样 〈7) 。 不 过 ， 这 里 的 意思 是 
我 们 仍然 能 侦 测 到 错误 ， 因 为 两 个 校 验 和 中 至 少 有 一 个 和 原始 校 验 和 
不 同 。 尽 管 需要 用 一 些 稍微 技术 性 的 数学 来 证 明 ， 但 有 一 点 是 确认 无 
疑 的 : 只 要 错误 不 超过 两 处 ， 你 残 都 能 够 侦 测 到 错误 。 




















简单 和 阶 校 验 和 
原始 消息 46756 8 7 
有 一 处 错误 的 消息 16756 5 4 
有 两 处 错误 的 消息 从 二 6 4 2 
有 两 处 (不 同 ) 错误 的 消息 28756 8 9 
另 一 条 有 两 处 (不 同 ) 错误 的 消息 6 5 7 5 6 9 7 





既然 我 们 对 基本 方法 有 了 初步 了 解 ， 我 们 需要 意识 到 ， 刚 刚 描述 
的 校 验 和 把 戏 只 能 保证 在 相对 较 短 的 消息 上 奏效 〈 少 于 10 位 数 ) 。 但 





与 此 非常 类 似 的 概念 能 被 应 用 在 较 长 的 消 轧 上。 通过 一 定 的 简单 操作 
序列 ， 如 把 数字 加 起 来 ， 将 数字 和 其 位 阶 相 乘 ， 或 按照 固定 模式 将 一 
些 数字 交换 ， 我 们 还 是 有 可 能 定义 校 验 和 的 。 尺 管 这 听 起 来 很 复 茶 ， 
计算 机 却 能 曼 不 费力 地 迅速 计算 这 些 校 验 和 。 结 果 证 明 ， 这 些 方法 用 
在 侦 测 消 妃 中 的 错误 上 极其 有 效 且 实用 。 


上 面 描述 的 校 验 和 把 戏 只 生成 两 个 校 验 和 数字 《简单 校 验 和 及 阶 
梯 校 验 和 ) ， 但 真正 的 校 验 和 通常 会 生成 比 这 长 得 多 的 数字 一 一 有 时 
长 达 150 位 。“〈 我 在 本 章 中 讲 的 都 是 十 进 制 数 0 9， 而 不 是 二 进 制 数 0 和 
1， 二 进 制 数 在 计算 机 通信 中 要 更 经 常 被 用 到 。) 重点 是 ， 校 验 和 的 长 
度 〈 要 么 和 上 面 的 例子 一 样 是 2 位 ， 要 么 和 在 实际 中 运用 的 校 验 和 一 
样 ， 有 近 150 位 ) 是 固定 的 。 不 过 ， 尽 管 所 有 校 验 和 算法 生成 的 校 验 和 
长 度 都 是 固定 的 ， 只 要 你 愿意 ， 你 都 能 计算 消息 的 校 验 和 。 因 此 ， 对 
于 非常 长 的 消 奶 来 说 ， 即 便 一 个 相对 较 大 的 校 验 和 “如 150 位 数 ) ， 最 
终 和 消息 本 吴 相 比 也 极 小 。 比 如 ， 假 设 你 从 互联 网 上 下 载 了 一 个 20 兆 
的 软件 包 ， 你 使 用 了 一 个 100 位 数 的 校 验 和 来 验证 它 的 正确 性 。 软 件 包 
的 校 验 和 也 比 不 上 软件 包 大 小 的 十 万 之 一 。 我 敢 育 定 ， 你 会 认为 这 个 
杂项 水 平 可 以 接受 ! 而 数学 家 会 告诉 你 ， 使 用 这 种 长 度 的 校 验 和 侦 测 
错误 ， 其 失败 的 概率 极其 微小 ， 在 现实 中 几乎 不 可 能 失败 。 








和 前 面 一 样 ， 这 里 也 有 几 处 重要 的 技术 细节 。 并 不 是 任何 一 个 百 
位 数 校 验 和 系统 对 失败 都 有 如 此 高 的 抵抗 性 。 这 需要 一 种 被 计算 机 科 
学 家 称 为 加 密 哈 希 函 数 (cryptographic hash function) 的 特定 校 验 
和 ， 尤 其 是 在 恶意 敌人 而 非 糟 糕 信 道 的 随机 变动 对 信息 作出 改变 时 。 
这 是 个 非常 现实 的 问题 ， 因 为 也 许 就 有 一 名 和 收 恶 黑客 试图 更 改 这 个 20 
兆 的 软件 包 ， 并 让 其 具有 相同 的 100 位 校 验 和 数 ， 而 这 个 不 同 的 软件 其 
实 是 要 控制 你 的 计算 机 ! 使 用 加 密 哈 希 函数 能 消除 这 种 可 能 性 。 


由 定位 把 戏 











既然 知道 了 校 验 和 ， 现 在 我 们 可 以 回 到 最 初 同时 侦 测 和 纠正 通信 
错误 的 问题 上 了 。 我 们 已 经 知道 如 何 做 到 这 一 点 ， 要 么 使 用 低 效 的 重 
复 把 戏 ， 要 么 使 用 高 效 的 元 余 把 戏 。 但 还 是 让 我 们 先 回 到 这 个 问题 ， 
因为 我 们 从 未 真正 地 了 解 代码 字 是 如 何 创 造 的 ， 而 代码 字 则 是 这 些 把 
戏 的 关键 成 分 。 我 们 的 确 有 用 英语 里 词 描述 数字 的 例子 ， 但 那 种 代码 
字 不 如 计算 机 实际 使 用 的 代码 字 高 效 。 我 们 也 看 过 一 段 汉 明 代码 的 真 
实例 子 ， 但 没有 解释 一 开始 代码 字 是 如 何 生成 的 。 





因此 ， 现 在 我 们 要 学 习 另 一 套 可 能 的 代码 字 ， 用 来 执行 元 余 把 
戏 。 因 为 这 种 见 余 把 戏 很 特别 ， 它 能 让 你 迅速 定位 一 处 错误 ， 我 们 称 
其 为 “定位 把 戏 ” (the pinioint trick) 。 


正如 我 们 在 校 验 和 把 戏 中 做 的 一 样 ， 我 们 将 和 完全 由 数字 0 9 组 成 
的 消 轧 打交道 ， 但 你 要 记 住 ， 这 只 是 为 了 方便 起 见 。 将 字母 消息 转译 
成 数字 很 简单 ， 因 此 在 这 里 描述 的 技术 能 被 应 用 到 任何 消 轧 上 。 





为 简单 起 见 ， 让 我 们 假设 消息 恰好 有 16 个 数字 ， 但 这 并 非 该 撤 术 
在 现实 中 的 应 用 。 如 果 你 有 一 条 长 消息 ， 将 其 打 雄 成 16 位 数 长 的 块 ， 
并 单独 处 理 每 块 数据 。 如 果 消 息 比 16 个 数字 短 ， 用 0 补 成 16 位 数 。 





定位 把 戏 的 第 一 步 是 重新 排列 消息 中 的 16 个 数 ， 将 其 排列 成 一 个 
从 左 往 右 、 自 上 同 下 读 的 方 框 。 如 果实 际 消息 是 








4 .83 78 43622568997 
重新 排列 为 : 
4837 


54356 
2256 


3 9 9 7 
下 一 步 ， 我 们 计算 每 一 行 的 校 验 和 ， 并 添加 在 每 行 的 右 侧 : 


4837 
54356 
225 6 
3997 





这 些 简 单 校 验 和 的 计算 方式 和 前 面 一 样 。 比 如 ， 要 得 到 第 二 行 的 
校 验 和 ， 你 需要 计算 5+4+3+6 = 18， 并 保留 最 后 一 位 数 8。 











定位 把 戏 的 下 一 步 是 计算 每 一 栏 的 简单 校 验 和 ， 并 添加 在 每 列 的 
底部 : 





和 前 面 一 样 ， 求 简单 校 验 和 的 方法 很 清楚 。 比 如 ， 要 得 到 第 二 行 
的 校 验 和 ， 你 需要 计算 3+3+5+9 = 20， 并 保留 最 后 一 位 数 0。 
定位 把 戏 的 下 一 步 是 重新 排列 所 有 数 ， 让 其 能 以 一 次 一 个 数 的 方 


式 存储 或 传输 。 你 通过 从 左 往 右 、 自 上 癌 下 读 的 方式 读数 。 因 此 ， 最 
后 你 会 得 到 如 下 24 位 数 的 消 奶 : 








483725436822565399784306 


现在 ， 想 象 你 已 经 收 到 了 一 条 使 用 定位 把 戏 传输 的 消 妃 。 你 需要 
采取 哪些 步骤 来 得 到 原始 消息 ， 纠 正 其 中 出 现 的 任何 通信 错误? 让 我 
们 举 个 例子 来 说 明 。 原 始 的 16 位 数 消 妃 和 上 面 的 一 样 ， 但 为 了 让 事情 
变 得 更 有 趣 ， 假 设 出 现 了 一 处 通信 和 错误， 其 中 一 个 数 被 蕉 换 了。 现在 
还 不 必 担 心 被 瞧 换 的 数 是 哪个 ， 我 们 很 快 就 能 运用 定位 把 戏 来 确定 。 





假设 你 收 到 的 24 位 数 消息 是 : 


483725436827565399784306 





你 要 做 的 第 一 步 就 是 把 数字 放 入 一 个 五 行 五 列 的 方 框 中 ， 最 后 一 
行 和 最 后 一 列 都 对 应 随 原始 消息 一 起 发 送 的 校 验 和 数字 : 





接 下 来 ， 计 算 每 一 行 每 一 列 四 个 数 的 简单 校 验 和 ， 在 接收 到 的 校 
验 和 值 旁 边 新 建 一 行 和 一 列 ， 并 在 其 中 记录 计算 结 


483 7 2 
54356 8 
2756 0 


3 9 9 7 





43056 
48356 
这 里 会 出 现 两 组 校 验 和 值 ， 你 发 送 的 ， 以 及 你 计算 出 来 的 ， 记 住 
这 一 点 至 关 重 要 。 在 绝 大 多 数 情况 下 ， 两 套 值 都 一 样 。 事 实 上 ， 如 果 
它们 都 一 样 ， 你 可 以 得 出 结论 ， 收 到 的 消息 极 有 可 能 是 正确 的 。 但 如 
果 出 现 一 个 通信 错误 ， 计 算得 出 的 一 些 校 验 和 值 会 和 发 送 的 不 同 。 注 
意 ， 这 个 例子 中 有 两 个 不 同 之 处 : 第 三 行 的 5 和 0 不 同 ， 第 二 列 的 3 和 8 
不 同 。 冲 突 的 校 验 和 在 框 中 被 标注 了 出 来 : 











关键 在 于 : 这 些 不 同 之 处 的 位 置 正好 说 明了 通讯 错误 出 现 的 位 
置 ! 错误 肯定 是 在 第 三 行 《因为 其 他 行 的 校 验 和 都 正确 ) ， 错 误 也 肯 
定 是 出 现在 第 二 列 《 因 为 其 他 列 的 校 验 和 都 正确 ) 。 正 如 你 能 在 下 图 
中 看 到 的 ， 这 将 错误 的 可 能 性 圈定 为 一 种 一 一 框 中 标 出 的 7: 








4 3 0 6 
‘ss 


但 这 还 不 是 全 部 ， 我 们 定位 了 错误 ， 但 还 没 纠 正 它 。 幸 和 运 的 是 ， 
很 容易 做 到 这 一 点 : 我 们 只 要 用 一 个 能 让 两 个 校 验 和 都 正确 的 数字 符 
换 出 错 的 7 即 可 。 我 们 能 看 出 ， 第 二 栏 的 校 验 和 本 应 为 3， 但 结果 却 是 
8。 换 名 话说 ， 校 验 和 需要 减 5。 我 们 把 错误 的 7 减 5， 得 到 2: 











你 甚至 可 以 通过 检查 第 三 行 来 验证 这 一 改变 。 第 三 行 的 校 验 值 现 
在 变 成 了 5， 和 收 到 的 校 验 和 一 致 。 错 误 同时 被 定位 和 纠正 了 ! 最 后 一 
步 很 明显 ， 就 是 将 纠正 后 的 原始 16 位 数 消息 从 五 行 五 列 的 框 中 取出 ， 
方法 是 从 左 往 右 ， 自 上 向 下 读 (当然 要 忽略 最 后 一 行 和 最 后 一 列 )。 


结果 是 : 




















4837543622563997 


这 和 我 们 一 开始 用 到 的 消息 相同 。 





在 计算 机 科学 中 ， 定 位 把 戏 的 名 称 是 “二 维 奇偶 校 验 码 ” (two- 
dimensional parity) 。 奇 侦 校 验 码 这 个 词 的 意思 和 和 简单 校 验 和 一 样 ， 
计算 机 在 处 理 三 进 制 数字 时 经 常用 到 它 。 而 奇偶 校 验 码 被 形容 为 二 


维 ， 是 因为 消息 放 在 有 两 个 维度 的 表格 〈 行 和 列 ) 中。 二 维 奇偶 校 验 
码 在 一 些 真 正 的 计算 机 系统 中 也 有 运用 ， 但 并 不 如 其 他 一 些 见 余 把 戏 
高 效 。 我 在 这 里 解释 它 的 原因 是 ， 它 能 很 容易 地 具 化 并 展现 在 不 要 求 
复杂 数学 的 情况 下 ， 于 当今 计算 机 系统 中 的 流行 代码 背后 发 现 并 纠正 
错误 的 风味 。 


由 现实 世界 中 的 纠 错 及 侦 错 


纠 错 码 于 20 世 纪 90 年 代 问 志 ， 距 离 电 子 计算 机 诞生 后 不 入 。 回 顾 
一 下 不 难看 出 原因 : 早期 计算 机 相当 不 可 靠 ， 组 件 经 常 产 生 错 误 。 但 
纠 错 人 码 的 真正 根源 出 现 得 还 要 早 ， 根 源 在 电报 和 电话 等 通信 系统 中 。 
因此 ， 这 两 大 导致 纠 错 码 发 生 的 事件 都 发 生 在 贝尔 电话 公司 的 研究 实 
验 室 中 也 束 不 奇怪 了 。 我 们 故事 中 的 两 位 英雄 死 荔 德 。 香 农 (Claude 
Shannon) 和 理 查 德 。 汉 明 都 是 贝尔 实验 室 的 研究 人 员 。 前 面 已 经 介绍 
了 汉 明 : 正 是 因为 他 对 公司 计算 机 在 周末 崩 尝 的 愤怒 ， 直 接 导 致 了 第 
一 批 纠 错 码 的 发 明 ， 也 就 是 现在 闻名 的 汉 明 代码 。 

















不 过 ， 纠 错 码 只 是 一 个 更 大 专业 的 一 部 分 ， 这 个 专业 被 称 为 信息 
理论 学 (information theory) ， 而 绝 大 多 数 计算 机 科学 家 将 信息 理 
论 学 的 诞生 归 因 于 克 劳 德 。 香农 在 1948 年 发 表 的 一 篇 论文 。 香农 的 一 
本 自传 中 将 这 篇 名 为 《通信 的 数学 理论 》 (The Mathematical Theory 
of Communication) 的 日 越 论文 形容 为 “信息 时 代 的 大 宪章 ”。 欧 文 
。 里 德 〈Irving Reed) 这 么 形容 这 篇 论文 : “本 世纪 只 有 几 件 事 能 在 
对 科学 和 工程 学 的 影响 力 上 超越 〈 这 人 篇 论文 ) 。 通 过 这 篇 里 程 碑 式 的 
VO 他 极 大 地 改变 了 通信 理论 和 实践 的 所 有 方面 。” 欧文 。 里 德 
是 里 德 一 香农 代码 的 共同 发 明 人 ， 我 们 将 在 下 面 提 到 里 德 一 香农 代 
人 码 。 为 什么 赞誉 如 此 之 高 ? 香农 通过 数学 展示 了 ， 有 可 能 从 根本 上 通 
过 一 个 嘲 杂 的 、 引 发 错误 的 链接 实现 错误 率 极 低 的 通信 。 直 到 数 十 年 
后 ， 科 学 家 们 才 在 现实 中 接近 实现 了 香农 的 理论 最 大 通信 率 。 

















顺便 说 一 下 ， 香 农 的 兴趣 非常 广 沁 。 作 为 1956 年 达 特 节 斯 人 工 智 
能 大 会 (将 在 第 六 章 末 谈 到 ) 的 四 位 主要 组 织 者 之 一 ， 他 积极 参与 了 
另 一 领域 的 创立 : 人 工 智 能 。 这 还 没完 。 他 还 骑 单 轮 车 ， 并 制造 了 一 
辆 令 人 难以 置信 的 单 轮 车 。 这 辆 单 轮 车 有 一 个 椭圆 轮子 ， 意 味 着 车 手 
随 着 单 轮 车 前 进 可 以 上 下 移动 ! 








香农 的 工作 将 汉 明 代码 放 到 了 一 个 更 大 的 理论 环境 中 ， 并 为 许多 
深入 发 展 打 下 了 基础 。 目 此 以 后 ， 汉 明代 码 被 用 于 一 些 最 早期 的 计算 
机 中 ， 并 仍 广 泛 用 于 一 些 特定 种 类 的 内 存 系统 中 。 里 德 一 所 罗 门 
(Reed - Solomon) 代码 是 另 一 类 重要 的 代码 。 这 些 代 码 能 被 用 来 纠正 
每 个 代码 字 中 的 众多 错误 。 [与 这 里 的 〈7，4) 汉 明 代码 堆 
然 不 同 ， 汉 明代 码 只 能 纠正 7 位 数 代 码 字 中 的 一 个 错 
误 。] 里 德 一 所 罗 门 代码 基于 一 个 名 为 有 限 域 代数 (finite field 
algebra) 的 数学 分 支 ， 但 你 可 以 非常 粗略 地 想象 ， 它 结合 了 阶梯 校 验 
和 及 二 维 定点 把 戏 的 特色 。CD、DVD 和 计算 机 硬盘 中 都 用 到 了 里 德 一 所 
罗 门 代码 。 





校 验 和 在 现实 中 的 运用 也 很 广泛 ， 一 般 是 用 于 侦 测 而 非 纠 正 错 
误 。 也 许 最 第 见 的 例子 就 算 以 太 网 了 ， 现 今 地球 上 几乎 所 有 计算 机 都 
用 这 一 联网 协议 。 以 太 网 中 应 用 了 一 种 被 称 为 CRC-32 的 校 验 和 来 侦 测 
错误 。 最 为 普遍 的 互联 网 协议 TCP 也 在 其 发 送 的 每 块 (或 包 ) 数据 上 使 
用 校 验 和 。 校 验 和 不 正确 的 包 直 接 被 丢弃 了 ， 因 为 TCP 被 设计 用 来 在 以 
后 必要 时 自动 传输 这 些 包 。 发 布 在 互联 网 上 的 软件 包 通 党 使 用 校 验 和 
验证 : 其 中 一 种 流行 的 校 验 和 是 MD5， 另 一 种 是 SHA-1。 这 两 种 校 验 和 
都 属于 加 密 哈 希 图 数 ， 为 抵御 恶意 自 改 软件 提供 保护 ， 也 能 防止 随机 
通信 错误 。MD5 校 验 和 约 有 40 位 数 长 ，SHA-1 生 成 的 数 约 有 50 位 。SHA-1 
的 同类 校 验 和 中 有 些 抗 错 性 甚至 要 更 好 ， 如 SHA-256 〈 约 75 位 数 ) 和 
SHA-512 〈 约 150 位 数 ) 。 








纠 错 及 侦 测 代码 这 门 科 学 不 断 壮 大 。 目 20 世 纪 90 年 代 开 始 ， 一 种 
名 为 低 密 度 奇偶 校 验 码 (low-density parity-check codes) 的 方法 
受到 极 大 关注 。 这 些 代码 如 今 的 用 途 非 常 广泛 ， 从 卫星 电视 到 通过 深 
海光 线 进 行 的 通信 。 下 次 你 在 周末 享受 高 清 卫 星 电视 时 ， 不 妨 有 遐思 一 
下 这 个 令 人 回味 的 反讽 : 正 是 由 于 理 碍 德 。 汉 明 在 周末 与 早期 计算 机 
的 斗争 中 产生 了 困扰 ， 才 有 了 我 们 现在 周末 的 娱乐 。 




















第 六 章 图形 识别 一 一 从 经 验 中 学 习 


分 析 引 擎 没有 原创 任何 东西 的 权利 。 它 只 能 
按照 我 们 的 指令 执行 任何 事情 。 


一 一 艾 达 。 勒 甘 营 给 (Ada Lovelace) ， 
摘自 她 1843 年 有 关 分 析 引 擎 的 笔记 


在 前 面 各 章 我 们 探索 的 领域 里 ， 计 算 机 的 能 力 都 要 远 超 人 的 能 
力 。 比 如 ,计算 机 通常 可 以 在 一 两 秒 内 加 密 或 解密 一 个 大 文件 ， 而 人 
通过 手动 计算 执行 相同 的 任务 则 需要 数 年 时 间 。 举 个 更 极端 的 例子 ， 
想象 一 下 ， 假 设 让 人 根据 第 三 章 中 描述 的 算法 手动 计算 数 十 亿 网 页 的 
PageRank 权 重 。 这 项 任务 太 大 ， 在 现实 中 我 们 不 可 能 完成 这 项 任务 。 
但 互联 网 搜索 公司 的 计算 机 在 持续 不 断 地 执行 这 些 计算 。 





而 在 本 童 ， 我 们 将 审视 一 个 人 类 具有 天 然 优 势 的 领域 : 图形 识别 
领域 。 图 形 识别 是 人 工 知 能 的 一 部 分 ， 包 括 面 部 识别 、 物 体 识别 、 语 
音 识别 和 笔迹 识别 等 任务 。 更 具体 的 例子 ， 如 判定 一 张 照片 是 不 是 你 
姊妹 的 照片 ， 或 判定 手写 信封 上 的 城市 及 州 名 。 因 此 ， 图 形 识别 可 以 
更 通俗 地 定义 为 ， 让 计算 机 基于 输入 数据 “聪明 地 ”行动 的 任务 ， 这 
些 数据 包含 大 量 的 变量 。 











给 “聪明 地 ”加 双 引 号 的 理由 很 充分 :计算 机 是 售 能 展现 出 真正 
的 智能 ， 这 个 问题 具有 高 度 争 议 性 。 本 章 的 开篇 引言 代表 了 这 一 争论 
中 最 早 的 论述 之 一 : 艾 达 。 勒 天 蔓 丝 于 1843 年 就 一 全 早期 机 械 计算 机 
的 设计 发 表 评 论 ， 这 人 台 早 期 计算 机 被 称 为 分 析 引 擎 〈Analytical 


Engine) 。 但 在 这 一 声明 中 ， 她 着 重 说 明了 计算 机 缺乏 原创 性 : 它们 
必须 严格 遵循 人 类 程序 员 的 指令 。 一 段 时 间 以 来 ， 计 算 机 科学 家 们 就 
计算 机 能 含 从 根本 上 展现 出 智能 争论 不 休 。 而 如 果 把 哲学 家 、 神 经 科 
学 家 和 神学 家 也 算 上 的 话 ， 这 一 争论 其 至 会 变 得 更 复杂 。 








幸运 的 是 ， 我 们 不 必 在 本 章 解 决 机 器 智能 的 那 论 。 从 我 们 的 目的 
出 发 ， 我 们 最 好 还 是 将 “智能 ”这 个 词 换 成 “有 用 ”。 因 此 ， 图 形 识 
别 的 基本 任务 就 是 处 理 一 些 变 量 极 多 的 数据 一 一 如 不 同 光照 环境 下 的 
各 种 人 脸 照 片 ， 或 不 同人 书写 许多 不 同 字 的 笔迹 样本 一 一 并 做 一 些 有 
用 的 事 。 坚 无 疑问 ， 人 能 够 智能 地 人 处理 这 些 数据 : 我 们 能 以 令 人 难以 
置信 的 精确 度 识 别人 脸 ， 能 在 不 提前 查看 其 他 人 笔迹 样本 的 情况 下 ， 
阅读 几乎 所 有 人 的 笔迹 。 计 算 机 在 处 理 这 些 任务 上 远 不 如 人 。 但 已 经 
有 一 些 精妙 的 算法 出 现 ， 能 让 计算 机 很 好 地 执行 一 些 特定 的 图 形 识 别 
任务 。 在 本 章 ， 我 们 将 学 习 三 种 这 样 的 算法 : 最 近邻 分 类 器 
(nearest-neighbor classifier ) 、 决 策 树 (decision tree) 以 及 
人 工 神 经 网 络 (artificial neural network) 。 但 首先 ， 我 们 要 对 党 
试 解决 的 问题 进行 更 科学 的 描述 。 


由 问题 是 什么 ? 


从 一 开始 看 ， 图 形 识别 的 任务 种 类 多 得 似乎 超 乎 寻 闸 。 计 算 机 能 
使 用 一 个 单独 的 图 形 识别 技术 工具 包 来 识别 笔迹 、 面 部 、 语 音 及 更 多 
东西 吗 ? 这 一 问题 的 可 能 答案 之 一 是 : 四 着 我 们 的 脸 看 ， 人 脑 在 处 理 
多 种 多 样 的 识别 任务 上 速度 超 快 、 精 确 度 超 高 。 我 们 能 编写 一 个 计算 
机 程序 来 做 到 相同 的 事 吗 ? 











在 讨论 那样 一 个 程序 可 能 用 到 的 技术 之 前 ， 我 们 需要 统一 令 人 了 眼 
花 综 乱 的 多 种 任务 ， 定 义 一 个 单一 问题 让 我 们 来 尝试 解决 。 要 实现 这 
一 点 ， 标 准 做 法 是 将 图 形 识别 看 作 分 类 问题 。 我 们 假设 要 处 理 的 数据 


被 分 解 成 合理 大 小 的 块 ， 这 些 块 被 称 为 “样本 ”， 每 一 个 样本 都 属于 
可 能 “类 ” (class) 的 固定 集 之 一 。 比 如 ， 在 一 个 人 脸 识别 问题 中 ， 
每 一 个 样本 都 是 一 张 人 脸 图 片 ， 而 类 则 是 系统 能 识别 出 的 这 些 人 的 号 
份 。 有 一 些 问 题 只 有 两 个 类 。 这 方面 的 第 见 例子 是 对 一 种 特殊 疾病 的 
医学 诊断 ， 而 其 中 的 两 个 类 也 许 是 “健康 ”和 “得 病 ”， 这 样 每 个 数 
据 样 本 就 能 组 成 单个 病人 的 所 有 诊断 结果 《〈《 比 如， 血压、 体重 、X 光 照 
片 以 及 其 他 很 多 方面 ) 。 因 此 ， 计 算 机 的 任务 就 是 处 理 其 从 未 见 过 的 
新 数据 样本 ， 并 将 每 个 样本 分 到 可 能 的 一 个 类 中 。 


具体 来 讲 ， 接 下 来 让 我 们 集中 精力 于 一 个 图 形 识 别 任务 。 这 个 任 
务 是 识别 手写 数字 ， 其 中 一 些 典 型 样本 在 下 文 的 图 中 有 显示 。 这 个 问 
题 里 正好 有 10 个 类 : 数字 0、1、2、3、4、5、6、7、8 和 9。 因 此 ， 任 
务 束 是 将 手写 数字 样本 分 到 其 所 属 的 类 中 。 当 然 ， 这 是 个 有 着 巨大 实 
际 影响 的 问题 ， 因 为 美国 和 其 他 国家 都 使 用 数字 邮编 表示 地 址 。 如 果 
计算 机 能 快速 旦 精确 地 识别 这 些 邮编 ， 机 器 分 类 信件 的 速度 就 要 比 人 


类 高 效 得 多 。 











很 显然 ， 计 算 机 并 没有 内 建 手写 数字 是 什么 样 的 知识 。 事实 上 ， 
人 类 也 没有 这 种 内 建 知识 : 通过 结合 其 他 人 的 详尽 教授 以 及 观看 我 们 
用 来 教授 自己 的 例子 ， 我 们 学 会 了 如 何 去 识 别 数 字 及 其 他 手写 符号 。 
这 两 种 集 略 (详尽 教授 和 从 例子 中 学 习 )〉 也 被 用 于 计算 机 图 形 识 别 。 
不 过 ， 结 果 显 示 ， 即 便 是 最 简单 的 任务 ， 详 尺 教 授 计 算 机 也 非常 低 
效 。 比 如 ， 可 以 将 我 房子 中 的 环境 控制 看 作 一 个 简单 的 分 类 系统 。 数 
据 样 本 包含 当前 温度 和 时 间 ， 三 个 可 能 的 类 分 别 是 “开启 供暖 ”、 
“开启 空调 ”和 “两 者 均 关 闭 ”。 因 为 我 日 天 在 办 公 室 工作 ， 我 在 白 
天 就 将 系统 设置 为 “两 者 均 关 闭 ”， 而 在 这 些 时 间 之 外 ， 如 果 温 上 度 过 
低 束 会 “开局 供暖 ”， 如 果 温 度 过 局 束 会 “开局 空调 ”。 因 此 ， 在 设 
置 温 度 调节 需 的 过 程 中 ， 我 在 某 种 程度 上 “教授 ”了 系统 针对 这 三 个 


类 执行 分 类 。 





不 竺 的 是 ， 没 人 能 详尽 地 “教授 ”计算 机 解决 更 有 趣 的 分 类 任 
务 ， 如 下 一 页 的 手写 数字 。 因 此 计算 机 科学 家 们 转向 男 一 种 集 略 : 让 
计算 机 自动 “学 习 ” 如 何 分 类 样本 。 基 本 琐 略 是 给 计算 机 大 量 标 记 数 
据 (labeled data) : 已 经 被 分 类 的 样本 。 后 面 的 图 就 给 出 了 一 些 用 
于 手写 数字 任务 的 标记 数据 。 因 为 每 个 样本 都 带 有 一 个 标签 〈 也 就 是 
它 的 类 ) ， 计 算 机 能 运用 多 种 分 析 把 戏 提 取出 每 个 类 的 特性 。 之 后 再 
加 计算 机 提供 一 个 未 标记 的 样本 ， 通 过 选择 和 未 标记 样本 特性 最 接近 
的 样本 ， 计 算 机 能 推测 未 标记 样本 的 类 。 

















学 习 每 个 类 特性 的 过 程 通常 被 称 为 “训练 ”， 而 标记 数据 则 是 
“训练 数据 ”。 因 此 ， 概 括 来 说 ， 图 形 识 别 任务 分 为 两 个 阶段 :首先 
是 训练 阶段 ， 计 算 机 基于 一 些 标 记 训 练 数据 学 习 类 ; 其 次 是 分 类 阶 
段 ， 计 算 机 对 新 的 未 标记 的 数据 样本 进行 分 类 。 
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计算 机 的 任务 是 将 每 
3 9 的 一 小 关中 去 。 


数字 分 到 数字 0、1、…… 


可 以 说 绝 大 多 数 图 形 识别 任务 都 是 分 类 问题 。 在 这 个 例子 中 ， 
写 


个 手 


数据 来 源 : 乐 康 (LeCun) 等 人 的 MN1ST 数 据 。 


最 近邻 分 类 把 戏 


预测 


你 能 只 根据 一 个 人 的 家 庭 住址 ， 


下 面 这 个 分 类 任务 很 有 趣 : 
那个 人 会 同 哪 个 政治 和 党派 捐 赠 吗 ? 很 显然 ， 这 个 例子 中 的 分 类 任务 不 


能 以 完美 的 精确 度 执行 ， 即 便 是 人 也 不 行 : 一 个 人 的 地 址 并 不 能 透露 
足够 多 的 信息 让 你 预测 这 个 人 的 政治 倾 回 。 不 过 ， 不 管 怎样 ， 我 们 都 
愿意 训练 一 个 分 类 系统 ， 让 其 仅仅 根据 房屋 地 址 ， 预 测 这 个 人 最 有 可 
能 癌 哪 个 政党 捐赠 。 
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要 训练 一 个 分 类 器 ， 计 算 机 需要 一 些 标记 数据 。 在 这 个 例子 中 ， 每 个 数据 样本 (一 
个 手写 数字 ) 都 带 有 一 个 表明 其 所 属 具 体 数 字 的 标签 。 标 签 在 左边 ， 训 练 样 本 在 右 
边框 内 。 

数据 来 源 : 乐 康 (LeCun) 等 人 的 MNIST 数 据 。 


























下 页 的 图 显示 了 一 些 可 能 被 用 于 这 一 任务 的 训练 数据 。 这 张 图 是 
2008 年 美国 总 统 大 选中 雯 萨 斯 州 一 个 社区 居民 实际 捐赠 的 地 图 。 (也 
许 你 会 对 这 个 社区 的 名 字 感 兴趣 ， 这 是 堪萨斯 州 威 奇 塔 市 学 院 山 社 


区 。) 为 便于 辨认 ， 地 图 上 并 没有 显示 街道 名 ， 但 捐赠 了 的 每 栋 房 屋 
的 实际 地 理 位 置 都 在 地 图 上 进行 了 精确 的 标记 。 癌 民主 党 人 捐赠 的 房 
屋 被 标记 为 “D”， 同 共和 和 党 人 捐赠 的 房屋 被 标记 为 “R”。 


训练 数据 如 此 之 多 。 当 有 一 个 新 样本 需要 被 分 为 民主 党 人 或 共和 
和 党 人 时 ， 我 们 要 怎么 做 ? 下面 的 图 具体 地 展示 了 这 个 例子 。 训 练 数 据 
和 上 一 幅 图 中 的 一 样 ， 但 另外 添加 了 两 处 用 问号 表示 的 新 地 点 。 让 我 
们 首先 关注 上 方 的 问号 。 只 是 营 一 眼 ， 不 用 尝试 做 任何 科学 的 事 ， 你 
党 得 这 个 问号 最 后 可 能 属于 哪 一 类 ? 这 个 问号 似乎 被 民主 党 人 捐赠 所 
围绕 ， 因 此 “D” 似 乎 是 个 相当 有 可 能 的 选项 。 那 男 一 个 在 左下 方 的 问 
号 呢 ? 这 个 问号 并 没有 完全 被 共和 党 人 捐赠 围绕 ,但 其 所 在 位 置 更 像 
是 在 共和 党 人 领地 而 非 民 主 和 党 人 领地 内 ， 因 此 “R” 会 是 个 好 推测 。 











用 于 预测 政党 捐赠 的 训练 数据 。“D” 代 表 向 民主 党 人 捐赠 的 房屋 ，“R” 代 表 向 共 
和 党 人 捐赠 的 房屋 。 
数据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞赛 项 目 (Fundrace project) 。 


不 管 你 是 否 相信 ， 我 们 刚刚 掌握 了 迄今 为 目 发 明 的 最 强大 、 最 有 
用 的 图 形 识别 技术 之 一 ， 一 种 被 计算 机 科学 家 称 为 最 近邻 分 类 器 的 广 
法 。“ 最 近邻 ”把 戏 做 的 事 ， 正 如 其 名 字 所 表达 的 含义 一 样 。 当 你 获 
得 一 个 未 分 类 的 数据 样本 时 ， 首 先 在 训练 数据 中 寻找 该 样本 的 最 近 
邻 ， 其 次 将 最 近邻 所 属 的 类 作为 你 的 预测 。 在 下 图 中 ， 这 就 是 推测 离 
每 个 问号 最 近 的 字母 。 








这 一 把 戏 另 一 个 稍微 成 熟 的 版 本 被 称 为 “K 个 最 近邻 ” (KK 
nearest-neighbors) ，kK 代 表 3 或 5 这 样 的 小 数字 。 在 这 张 图 中 ， 你 要 
检查 问号 的 K 个 最 近邻 ， 并 选择 在 这 些 邻近 对 象 中 最 受 欢迎 的 类 。 我 们 
可 以 在 下 图 中 看 到 实例 。 在 这 里 ， 离 问号 最 近 的 一 个 相 邻 对 象 是 共和 
党 人 捐赠 ， 因 此 最 近邻 把 戏 最 简单 的 形式 会 将 这 个 问号 归 为 “R”。 但 
如 果 我 们 转 而 使 用 3 个 最 近邻 方法 ， 我 们 发 现 其 中 有 两 家 是 民主 党 捐 
赠 ， 一 家 是 共和 党 捐赠 一 一 在 这 一 特定 组 合 的 社区 中 ， 民 主 党 捐赠 要 
更 受 欢迎 ， 于 是 问号 被 归 为 “D”。 





那么 ， 我 们 该 使 用 多 少 相 邻 对 象 呢 ? 答案 取决 于 要 处 理 的 问题 。 
一 般 来 说， 实际 工作 者 会 答 试 几 个 不 同 的 值 ， 看 哪个 值 效果 最 好 。 这 
听 起 来 也 许 不 科学 ， 但 却 反 映 了 有 效 图 形 识别 系统 的 现实 。 有 效 的 图 
形 识别 系统 一 般 是 通过 组 合 运 用 数学 洞 见 、 民 好 的 判断 及 实际 经 验 创 
造 出 来 的 。 





使 用 最 近邻 把 戏 进行 分 类 。 每 个 问号 都 被 归 为 其 最 相 邻 对 象 所 属 的 类 。 上 面 的 问号 
是 “D”， 而 下 方 的 问号 则 是 “R”。 
数据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞赛 项 目 (Fundrace project) 。 


不 同类 型 的 “最 近邻 


到 目前 为 止 ， 我 们 所 着 手 的 问题 是 经 过 特意 挑选 的 ， 以 便 简 单 、 
直观 地 解释 一 个 数据 样本 成 为 男 一 个 数据 样本 “最 近 ” 邻 的 含义 。 
为 每 个 数据 点 都 在 地 图 上 标示 了 出 来 ， 我 们 只 需 使 用 点 与 点 之 间 的 地 
理 距 离 ， 惑 能 得 出 相距 最 近 的 点 。 但 在 每 个 数据 样本 都 是 像 前 文 图 中 
的 手写 数字 时 ， 我 们 该 怎么 办 呢 ? 我 们 需要 一 些 方法 来 计算 两 个 不 同 
手写 数字 示例 之 间 的 “距离 ”。 下 面 的 图 就 展示 了 这 样 一 种 方法 。 








这 一 方法 的 基本 理念 是 衡量 数字 图 像 之 间 的 区 别 度 ， 而 非 它 们 之 
间 的 地 理 距离 。 区 别 度 以 百分比 形式 衡量 一 一 区 别 度 只 有 1% 的 图 像 是 
非常 相近 的 邻 ， 而 区 别 度 在 99% 的 图 像 则 相差 很 远 。 图 中 给 出 了 具体 例 
子 。《〈 在 图 形 识别 任务 中 ， 输 入 的 信息 会 进行 一 些 预 处 理 步 又， 这 种 
情况 很 普遍 。 在 本 例 中 ， 每 个 数字 都 被 调整 为 同一 大 小 ， 并 位 于 图 像 
中 心 。) 在 图 中 最 上 方 的 一 行 中 ， 我 们 能 看 到 两 张 不 同 的 手写 2 图 像 。 
通过 对 这 些 图 像 进行 条 种 程度 的 “减法 ”， 我 们 得 到 了 右边 的 图 像 。 
这 张 图 像 的 其 余地 方 都 是 白色 ， 只 有 这 两 张 图 像 不 同 的 少数 地 方 为 黑 
色 。 结 果 显 示 ， 这 张 区 分 度 图 像 只 有 6% 的 地 方 是 黑色 的 ， 因 此 这 两 个 
手写 2 图 像 是 相对 近邻 。 为 一 方面 ， 在 图 中 最 下 方 的 一 行 ， 我 们 能 看 到 
不 同 数 字 图 像 (一 个 2 和 一 个 9)〉 削减 后 的 结果 。 右 边 的 区 分 度 图 像 有 
众多 黑 像 系 点 ， 因 为 这 两 张 手 写 数字 图 像 在 很 多 地 方 不 同 。 事 实 上 ， 
这 张 区 分 度 图 像 有 21% 的 地 方 是 黑色 的 ， 因 此 这 两 张 手写 图 像 并 非特 别 
临近 的 邻 。 








(6% difference] 


yy (21% differencej] 


计算 两 个 手写 数字 的 “距离 ”。 在 每 一 行 ， 都 要 用 第 一 张 图 减 去 第 二 张 图 ， 并 得 出 
右边 的 新 图 像 ， 新 图 像 中 突出 了 这 两 张 图 中 的 区 别 。 区 分 度 图 像 中 突出 部 分 所 占 的 








百分比 ， 就 能 被 视 为 原始 图 像 之 间 的 “距离 ”。 
数据 来 源 : 乐 康 (LeCun) 等 人 的 MN1ST 数 据 ，1998 年 。 


现在 我 们 了 解 了 如 何 计 算 手 写 数字 之 间 的 “距离 ”， 那 么 为 它们 
建立 一 个 图 形 识 别 系统 就 容易 了。 我 们 从 大 量 训练 数据 一 一 就 像 前 文 





图 中 的 手写 数字 一 样 ， 但 例子 要 多 得 多 一 一 开始 。 这 类 图 形 识 别 系 统 
的 标准 系统 可 能 会 使 用 十 万 个 标记 例子 。 当 给 予 系统 一 个 未 标记 的 新 
手写 数字 时 ， 系 统 会 在 十 万 个 例子 中 搜寻 ， 以 找到 一 个 和 被 分 类 的 例 
子 最 接近 的 邻 。 记 住 ， 当 我 们 在 这 里 说 “最 近邻 ”时 ， 我 们 真正 说 的 
征 最 小 的 区 分 度 ， 通 过 上 图 中 的 方法 计算 。 未 标记 数字 会 被 打上 和 最 
近邻 一 样 的 标签 。 














结果 表明 ， 使 用 这 种 “最 近邻 ”距离 方法 的 系统 效果 相当 好 ， 精 
确 度 接 近 97%。 研 究 人 员 们 投入 了 巨大 精力 去 寻找 更 加 成 熟 鸭 “最 近 
邻 ” 距 离 定 义 。 运 用 最 先进 的 距离 衡量 法 ， 最 近邻 分 类 器 在 手写 数字 
上 的 精确 度 能 超过 99. 5%。 这 一 精确 度 能 和 复杂 得 多 的 图 形 识别 系统 相 
比 ， 比 如 名 字 很 好 昕 的 “支持 向 量 机 ” (support vector machine ) 
和 “回旋 神经 网 络 ” (convolutional neural network) 。 最 近邻 把 
戏 是 计算 机 科学 的 一 个 真正 的 奇迹 ， 它 将 赏心悦目 的 简洁 性 和 令 人 印 
象 深刻 的 高 效 性 结合 在 了 一 起 。 





之 前 我 曾 强 调 ， 图 像 识 别 系 统 分 为 两 个 阶段 运行 : 学 习 《〈 训 练 ) 
阶段 会 处 理 训练 数据 ， 提 取 类 别 中 的 一 些 特性 ， 分 类 阶段 会 为 未 标记 
的 新 数据 分 类 。 那 么 ， 我 们 此 前 审视 的 最 近邻 分 类 器 的 学 习 阶 段 呢 ? 
似乎 尽管 我 们 获得 了 训练 数据 ， 却 并 未 费力 气 去 从 中 学 得 任何 东西 ， 
而 是 直接 使 用 最 近邻 把 戏 跳 到 了 分 类 阶段 。 这 正 是 最 近邻 分 类 器 的 特 
殊 属性 : 它们 无 须 任 何 详尽 的 学 习 阶 段 。 在 下 一 部 分 ， 我 们 将 研究 为 
一 种 分 类 右 ， 在 其 中 学 习 扮演 一 个 远 为 重要 的 角色 。 


| 20 个 问题 把 戏 : 决策 树 


“20 个 问题 ”游戏 对 计算 机 科学 家 有 一 种 特别 的 吸引 力 。 在 这 个 
游戏 中 ， 一 名 玩家 想 着 一 个 物体 ， 而 其 他 玩家 必须 依靠 不 超过 20 个 是 
非 问 题 的 答案 猜测 这 个 物体 的 吴 份 。 你 甚至 能 买 到 可 以 和 你 玩 20 个 问 








题 游戏 的 小 型 手持 设备 。 尺 管 这 个 游戏 大 多 数 时 候 被 用 于 取乐 儿童 ， 
但 成 年 人 玩 这 个 游戏 也 能 获得 令 人 惊讶 的 好 处 。 在 玩 这 个 游戏 一 段 时 
间 后 ， 你 开始 意识 到 有 “好 问题 ”和 “ 坏 问题 ”。 好 问题 肯定 能 给 你 
大 量 “ 信 息 ”《〈 不 管 这 些 信息 意味 着 什么 ) ， 而 坏 问题 则 不 能 。 比 
如 ， 第 一 个 问题 问 “ 它 是 铀 做 的 吗 ”， 束 是 个 坏 主意 ， 因 为 答案 是 
“不 是 ”， 可 能 性 的 范畴 只 被 缩小 了 一 点 点 。 这 些 有 关 好 问题 和 坏 问 
题 的 直觉 处 于 一 个 极 有 吸引 力 的 领域 一 一 信息 理论 学 一 一 的 核心 。 它 
们 同样 也 是 一 种 简单 、 强 大 的 图 形 识别 技术 一 一 决 集 树 一 一 的 核心 。 

















决策 树 基 本 上 束 古 一 个 提前 计划 的 20 个 问题 游戏 。 下 面 的 图 显示 
了 一 个 小 例子 。 这 是 一 个 决定 是 否 带 伞 的 决策 树 。 你 只 要 从 决策 树 顶 
部 开始 ， 按 照 问 题 的 答案 一 路 往 下 即 可 。 当 你 到 达 决 策 树 底 部 的 一 个 
框 时 ， 你 也 就 得 到 了 最 终结 果 。 
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“我 该 带 伞 吗 ”的 决策 树 。 


你 也 许 在 想 ， 这 和 图 形 识别 及 分 类 

| 0 AU 分 类 有 什么 关系 ? 答案 是 ， py 
es ee Hse te re 
树 。 青 确 分 类 的 决策 


证 我 们 来 研究 一 个 例子 ， 这 个 例子 基于 一 个 人 们 知之 甚 少 但 却 极 
其 重要 的 问题 一 一 网 络 垃圾 。 我 们 在 第 三 章 中 提 到 过 它 ， 一 些 肆 意 云 
为 的 网 站 操作 人 员 试 图 通过 人 为 制造 链 癌 特定 页 面 的 超 链 接 ， 操 纵 搜 
索引 擎 的 排名 算法 。 这 些 狐 诈 的 网 站 管理 员 使 用 的 一 个 相关 策略 ， 就 
征 创建 拥有 特别 修饰 内 容 ， 但 对 人 一 点 用 处 都 没有 的 网 页 。 你 可 以 在 
下 页 的 图 中 看 到 一 小 段 取 目 一 个 真实 网 络 垃圾 页 面 的 内 容 。 注 意 ， 那 
张 图 中 的 文本 没有 任何 音义， 但 却 重 复 列 出 了 和 在 线 学 习 有 关 的 流行 
搜索 术语 。 这 个 网 络 垃圾 网 页 是 为 了 提高 其 链 癌 的 特定 在 线 学 习 网 站 
的 排名 。 
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节选 自 一 个 “网 络 垃 圾 ”页 面 。 这 个 页 面 没 有 任何 对 人 类 有 用 的 信息 
的 就 是 操纵 网 络 搜索 排名 。 
资料 来 源 : 乐 陶 拉 斯 (Ntoulas) 等 人 ，2006 年 。 


其 唯一 目 








自然， 搜索 引擎 要 花费 大 量力 气 去 妾 试 辨别 和 消除 网 络 垃圾 。 这 
也 是 图 形 识别 的 完美 应 用 : 我 们 能 取得 大 量 训练 数据 (在 网 络 垃 圾 的 
例子 中 就 是 网 页 ) ， 手 动 将 它们 标记 为 “垃圾 ”或 “ 非 垃圾 ”， 并 训 
练 东 种 分 类 器 。 这 正 是 微软 研究 院 的 一 些 科 学 家 在 2006 年 做 的 事 。 他 


们 发 现 ， 对 这 个 特殊 问题 效果 最 好 的 分 类 器 是 人 们 喜爱 已 久 的 决策 
树 。 下 面 的 图 展示 了 他 们 得 出 的 决策 树 的 一 小 部 分 。 








尽管 完整 的 决策 树 依赖 于 许多 不 同 的 属性 ， 下 面 的 图 展示 的 部 分 
决策 树 专 注 于 页 面 内 文字 的 流行 度 。 网 络 垃 圾 制造 者 喜欢 在 页 面 中 加 
入 大 量 流行 词 ， 以 提升 他 们 网 页 的 排名 ， 因 此 流行 词 占 比较 小 ， 也 预 
示 该 网 页 是 垃圾 的 概率 较 低 。 这 解释 了 决策 树 的 第 一 个 决策 ， 其 余 决 
全 苯 循 类 似 的 逻辑 。 这 个 决策 树 的 精确 度 在 90% 左 右 一 一 离 完 美 相 差 很 
远 。 但 不 管 怎样 ， 这 是 一 个 对 抗 网 络 垃圾 制造 者 的 无 价 武器 。 





















排名 前 1 000 的 词 在 
页 面 中 所 占 的 百分比 


排名 前 500 的 词 在 页 
面 中 所 占 的 百分比 


出 现在 页 面 中 的 前 人 
500 个 词 的 百分比 


少 于 15% 


辨别 网 络 垃 圾 的 决策 树 的 一 部 分 。 点 代表 部 分 决策 树 出 于 简洁 的 目的 省 略 了 。 
资料 来 源 : 乐 陶 拉 斯 (Ntoulas) 等 人 ，2006 年 。 


要 重点 理解 的 不 是 决策 树 本 里 的 细节 ， 而 是 这 一 事实 : 整个 决策 
树 是 由 计算 机 程序 基于 约 1.7 万 个 网 员 上 的 训练 数据 自动 生成 的 。 这 些 
“训练 ”页 面 被 真人 分 为 “也 圾 ”或 “ 非 垃圾 ”。 好 的 图 形 识别 系统 
需要 投入 巨大 的 人 力 ， 但 这 是 一 次 性 投入 ， 并 能 产生 长 期 回报 。 





和 我 们 之 前 讨论 过 的 最 近邻 分 类 器 相反 ， 决 策 树 分 类 器 的 学 习 阶 
段 非常 庞大 。 这 个 学 习 阶 段 如 何 进行 ? 其 主要 思想 和 规划 好 一 个 20 个 
问题 游戏 一 样 。 计 算 机 测试 大 量 可 能 的 第 一 个 问题 ， 寻 找 一 个 能 得 出 
最 佳 的 可 能 信息 的 问题 。 然 后 ， 计 算 机 将 训练 样本 分 为 两 组 ， 取 决 于 
样本 对 第 一 个 问题 的 答案 ， 并 产生 第 二 个 对 这 两 个 组 都 最 佳 的 可 能 问 
题 。 计 算 机 一 直 用 这 种 方法 往 决策 树 确 部 前 进 ， 永 远 基 于 达到 决策 树 
某 一 点 的 训练 示例 集合 来 决定 最 佳 问 题 。 如 果 示 例 集合 在 茶 一 点 变 得 
“ 纯 滔 ”， 也 就 是 说 ， 集 合 中 只 包含 垃圾 页 面 或 非 垃 圾 页 面 一 一 计算 
机 就 能 集 止 生成 新 问题 ， 输 出 对 应 剩余 页 面 的 答案 。 











忆 之 ， 决 策 树 分 类 器 的 学 习 过 程 可 以 很 复 哥 ， 但 它 是 全 自动 的 ， 
而 且 你 只 需要 做 一 次 。 在 此 之 后 ， 你 就 得 到 了 上 自己 需要 的 决 倘 树 ， 而 
分 类 阶段 则 极其 简单 :就 像 20 个 问题 游戏 一 样 ， 你 按照 问题 的 答案 问 
决策 树 底 部 移动 ， 直 到 抵达 结果 框 。 基 本 上 ， 只 需要 少数 问题 ， 因 此 
分 类 阶段 极度 高 效 。 同 最 近邻 方法 相 比 ， 最 近邻 方法 在 学 习 阶 段 无 须 
费力 ， 但 分 类 阶段 要 求 我 们 将 需要 分 类 的 每 个 东西 和 所 有 训练 示例 进 
行 比 对 手写 数字 任务 中 的 示例 数 是 10 万 个 〉。 























在 下 一 部 分 ， 我 们 会 碰 到 神经 网 络 : 它 也 是 一 种 图 形 识别 技术 ， 
其 学 习 阶 段 不 仅 重 要 ， 而 且 直 接受 到 人 类 和 其 他 动物 从 环境 中 学 习 的 
方法 的 启发 。 


| 神经 网 络 








从 第 一 台数 字 计 算 机 的 创造 开始 ， 人 脑 令 人 印象 深刻 的 能 力 就 吸 
引 并 局 发 了 计算 机 科学 家 。 最 早 使 用 计算 机 模拟 人 脑 的 讨论 之 一 ， 是 
由 英国 科学 家 阿兰 。 图 灵 (Alan Turing) 发 起 的 ， 图 灵 还 是 一 名 顶 
级 的 数学 家 、 工 程 师 和 译 电码 专家 。 图 灵 于 1950 年 发 表 的 经 典 论 文 
《计算 机 器 与 智能 》 (Computing Machinery and Intelligence) ， 
以 其 对 计算 机 是 人 否 能 伪装 成 人 类 的 哲学 探讨 而 闻名 于 世 。 








一 个 标准 生物 神经 元 。 电 子 信号 按 图 中 箭头 所 示 方 向 流动 。 只 有 在 输入 信号 足够 大 
的 情况 下 ， 和 神经 元 才 会 传输 输出 信号 。 


这 篇 论文 介绍 了 一 种 评估 计算 机 和 人 之 间 相 似 性 的 科学 方法 ， 也 
就 是 如 今 众 所 周知 的 “图 灵 测 试 ” (Turing Test) 。 但 在 这 篇 论文 的 
一 段 不 怎么 知名 的 文字 里 ， 图 灵 直 接 分 析 了 使 用 计算 机 模拟 人 脑 的 可 
能 性 。 他 估计 只 需要 十 几 G〈 于 兆 字 节 ) 的 内 存 就 足够 了 。 





60 年 后 ， 人 们 普遍 认为 图 灵 极 大 地 低估 了 模拟 人 脑 所 需 的 工作 
量 。 自 那 篇 论文 发 表 以 后 ， 计 算 机 科学 家 们 使 用 了 多 种 不 同 的 方法 寻 
求 达 成 这 一 目标 。 其 中 一 个 结果 就 是 人 工 神经 网 络 领域 (artificial 
neural networks) ， 人 简称 为 神经 网 络 。 


上 生物 神经 网 络 


为 帮助 我 们 理解 人 工 神 经 网 络 ， 我 们 首先 要 对 真实 的 生物 神经 网 
络 如 何 运 行 有 大 致 了 解 。 动 物 大 脑 由 神经 元 细胞 构成 ， 每 个 神经 元 和 
其 他 许多 神经 元 相连 。 神 经 元 能 通过 这 些 连接 发 送 电子 和 化 学 信和 号。 
其 中 一 些 连接 被 建立 用 于 接收 来 自 其 他 神经 元 的 信号 ; 余下 的 连接 则 
加 其 他 神经 元 传输 信号 〈 见 上 疼 ) 。 








描述 这 些 信号 的 一 种 简单 方法 是 ， 在 任何 时 刻 ， 一 个 神经 元 要 么 
“闲置 ” (idle) ， 要 么 “开火 ” (firing) 。 当 它 闲 置 时 ， 神 经 元 
并 没有 传输 任何 信号 ; 当 它 开火 时 ， 神 经 元 通过 其 所 有 外 辣 连 接 频 繁 
发 送信 号 脉冲 。 神 经 元 如 何 决定 何 时 开火 呢 ?” 这 取决 于 其 接收 到 的 信 
号 的 强度 。 基 本 上 ， 如 果 所 有 传 入 信和 号 的 总 强度 足够 大 ， 神 经 元 就 会 
开始 开火 ; 否则 ， 神 经 元 仍 会 末 置 。 粗 略 地 来 说 ， 神 经 元 会 将 其 接收 
的 所 有 输入 “ 相 加 ”， 在 总 和 足够 大 时 开火 。 这 一 摘 述 的 一 个 重要 修 
饰 之 处 是 ， 神 经 元 实际 上 有 两 各 输入， 分别 为 兴奋 性 输入 
(Cexcitatory) 和 抑制 性 输入 〈inhibitory) 。 兴 奋 性 输入 的 强度 会 
相 加 ， 而 抑制 性 输入 则 会 从 总 数 中 减 去 ， 因 此 一 个 强烈 的 抑制 性 输入 
倾 回 于 阻止 神经 元 开火 。 


一 个 解决 带 企 问 题 的 神经 网 络 


人 工 神 经 网 络 就 是 一 个 代表 一 小 部 分 人 脑 的 计算 机 模型 ， 运 算 融 
度 简 化 。 我 们 在 一 开始 会 讨论 一 个 人 工 神经 网 络 的 基础 版 本 ， 这 个 基 
础 版 本 在 处 理 之 前 思考 的 带 伞 问题 上 效果 恨 好 。 之 后 ， 我 们 将 运用 一 
个 拥有 成 熟 功 能 的 神经 网 络 来 处 理 “ 太 阳 镜 问题 ”。 











我 们 基础 模型 中 的 每 个 神经 元 都 有 一 个 号 码 ， 这 个 号 码 被 称 为 神 
经 元 的 阀 值 (threshold) 。 当 模型 运行 时 ， 每 个 神经 元 都 将 其 接收 的 
输入 相 加 。 如 果 输 入 总 量 大 于 或 等 于 靖 值 ， 神 经 元 就 开火 ， 否 则 就 仍 
然 闲 置 。 下 图 就 展示 了 一 个 神经 网 络 ， 人 处 理 我 们 之 前 思考 的 极其 简单 





的 带 爹 问题 。 在 图 的 左边 ， 有 三 个 输入 进入 网 络 。 你 可 以 将 这 些 输入 
想象 为 动物 脑 中 的 感觉 输入 。 和 我 们 的 眼睛 及 耳 灯 触及 并 友 送 全 脑 部 
神经 元 的 电子 及 化 学 信号 一 样 ， 图 中 三 个 输入 向 人 工 神经 网 络 中 的 神 
经 元 发 送信 号 。 这 个 网 络 中 的 三 个 输入 都 是 兴奋 性 输入 。 如 果 相 对 应 
的 情况 是 真 的 ， 那 么 每 个 输入 都 会 传输 强度 +1 的 信号 。 比 如 ， 如 果 现 
在 多 云 ， 那 么 被 标记 为 “多 云 ” 的 输入 ， 会 发 送 一 个 强度 +1 的 兴奋 性 
言 写 ; 有 反之， 它 不 会 有 送 任 何 东 西 ， 也 束 相 当 于 一 个 强度 为 0 的 信号 。 


如 果 我 们 忽略 输入 和 输出 ， 这 个 网 络 只 有 两 个 神经 元 ， 每 个 神经 
元 的 阐 值 都 不 同 。 湿 润 度 和 云 量 输入 的 神经 元 ， 只 有 在 两 个 输入 都 活 
跃 时 才 开 火 〈 假 设 其 阔 值 为 2)， 而 男 一 个 神经 元 只 要 输入 之 一 是 活跃 
的 束 能 开火 假设 其 值 为 1 ) 。 这 样 做 的 效果 在 下 图 中 展示 了 出 来 ， 你 
能 在 其 中 看 到 最 终 输出 是 如 何 根据 输入 改变 的 。 








多 云 ， 但 既 不 潮湿 也 没 下 雨 。 


最 上 方 的 图 : 一 个 解决 带 伞 问 题 的 神经 网 络 。 下 面 两 张 图 : 运行 中 的 带 伞 神 经 网 
络 。“ 开 火 ” 的 神经 元 、 输 入 和 输出 都 加 粗 了 。 在 中 间 的 图 中 ， 输 入 状态 是 未 下 
雨 ， 但 却 既 潮湿 又 多 云 ， 产 生 了 带 件 的 决策 。 在 最 下 面 的 图 中 ， 唯 一 的 活跃 输入 
是 : “多 云 ? ”结果 是 不 带 伞 的 决策 。 





将 由 一 个 神经 网 络 “ 识 别 ” 的 人 脸 。 事 实 上 ， 与 识别 人 脸 不 同 的 是 ， 我 们 将 处 理 比 
识别 人 脸 更 简单 的 问题 ， 判 断 一 张 人 脸 上 是 否 戴 了 太阳 镜 。 来 源 : 汤姆 。 米 切 尔 
(Tom Mitchel1) ，《 机 器 学 习 》 (Machine Learning) ， 麦 格 劳 - 硕 尔 出 版 社 
(1998 年 ) 。 感 谢 授 权 使 用 该 图 像 。 


到 这 里 ， 你 也 许 该 回头 再 看 看 前 文中 用 于 解决 带 人 金 问 题 的 决策 
树 。 结 果 显 示 ， 当 给 予 相同 的 输入 时 ， 决 策 树 和 神经 网 络 产 生 了 相同 
的 结果 。 对 于 这 个 非常 简单 的 人 为 问题 而 言 ， 决 倘 树 作为 代表 很 可 能 
要 更 合适 。 但 我 们 接 下 来 将 探 宛 一 个 很 复杂 的 问题 ， 它 将 展示 神经 网 
络 的 真正 力量 。 


一 个 解决 太阳 镜 问 题 的 神经 网 络 


作为 一 个 能 通过 使 用 神经 网 络 成 功 解决 的 现实 问题 的 例子 ， 我 们 
将 处 理 被 称 为 “太阳 镜 问 题 ” 的 任务 。 这 一 问题 的 输入 是 一 个 低 分 辩 
率 人 脸 照 片 的 数据 库 。 数 据 库 中 的 人 脸 角 度 不 一 : 有 些 人 直 视 镜头 ， 
有 些 人 的 头 仰 着 ， 有 些 人 看 向 左边 或 右边 ， 还 有 一 些 人 戴 着 太阳 镜 。 
上 图 显示 了 其 中 一 些 例子 。 








在 这 里 ， 我 们 故意 使 用 低 分 辩 率 照片 ， 以 便 让 我 们 的 神经 网 络 容 
易 描 述 。 事 实 上， 这些 图 片 的 宽 和 高 都 只 有 30 人 像素。 不过， 我 们 很 快 
就 会 知道 ， 神 经 网 络 在 如 此 粗粮 的 输入 下 也 能 得 出 出 人 意料 的 好 结 
果 。 











这 个 人 脸 数 据 库 可 以 通过 神经 网 络 来 执行 标准 面部 识别 一 一 即 判 
定 照片 中 人 的 身份， 不管 这 个 人 是 否 看 癌 镜 头 或 戴 太 阳 镜 。 但 在 这 
里 ， 我 们 要 处 理 一 个 更 容易 的 问题 ， 以 更 清晰 地 展示 神经 网 络 的 属 
性 。 我 们 的 目标 是 判定 一 张 人 脸 是 人 否 戴 太阳 镜 。 


阅 值 的 神经 a 
me 0 

-ad Crm ) 
一 个 解决 太阳 镜 问题 的 神经 网 络 。 


上 图 显示 了 这 个 网 络 的 基本 结构 。 这 是 一 张 概括 图 ， 并 没有 显示 
实际 网 络 中 使 用 的 每 个 神经 元 或 每 个 连接 。 这 张 图 最 明显 的 特点 束 是 
右边 的 那个 输出 神经 元 ， 如 果 图 像 含 有 太阳 镜 ， 这 个 输出 神经 元 就 产 
生 一 个 1， 反 之 则 为 0。 在 网 络 中 央 ， 有 三 个 直接 从 输入 图 像 接 收 信和 号 
并 向 输出 神经 元 发 送信 号 的 神经 元 。 这 个 网 络 最 复杂 的 部 分 在 图 左 
边 ， 我 们 可 以 看 到 从 输入 网 像 到 中 央 神 经 元 的 连接 。 尽 管 并 没有 显示 
所 有 连接 ， 实 际 网 络 中 输入 图 像 的 每 个 像素 和 每 个 神经 元 都 有 连接 。 
快速 计算 后 ， 你 会 发 现 连 接 数 相当 庞大 。 记 得 我 们 使 用 的 图 像 宽 高 都 
为 30 像 素 吧 。 因 此 ， 即 便 以 现代 标准 来 看 这 些 图 像 很 小 ， 但 每 张 图 片 
也 都 包含 30 X 30 = 900 个 像素 。 而 图 中 有 三 个 中 央 神 经 元 ， 也 就 是 
说 ， 这 个 网 络 的 左边 总 共有 3 X 900 = 2 700 个 连接 。 




















输入 图 像 




















这 个 网 络 的 结构 是 如 何 决定 的 呢 ? 这 些 神经 元 能 按照 不 同 的 方式 
相连 吗 ? 是 的 ， 有 许多 种 不 同 的 网 络 结构 能 得 出 太阳 镜 问题 的 好 结 
果 。 一 个 网 络 结构 的 选择 ， 通 和 常 是 基于 之 前 运行 恨 好 的 经 验 。 和 以 前 
一 样 ， 我 们 再 一 次 看 到 ， 和 图 形 识 别 系 统 打 交道 需要 洞 见 和 直觉 。 














不 壮 的 是 ， 我 们 很 快 就 会 看 到 ， 在 网 络 正 确 运行 之 前 ， 我 们 选择 
的 网 络 中 的 所 有 2 700 个 连接 ， 都 要 按 某 种 方式 “调整 ”。 我 们 如 何 才 
有 可 能 处 理 这 种 调整 数 以 生计 不 同 连接 的 复杂 度 ? 答案 是 调整 会 通过 
学 习 训 练 示例 自动 完成 。 


| 增加 加 权 信 和 号 


正如 我 之 前 提 到 的 ， 我 们 用 于 解决 带 伞 问题 的 网 络 是 一 个 基础 版 
人 工 神经 网 络 。 对 于 太阳 镜 问 题 ， 我 们 将 添加 三 个 重要 的 增强 措施 。 


增强 措施 1: 信号 只 能 携带 0 和 1 之 间 的 任意 值 。 这 和 带 爹 网 络 相 
反 ， 带 人 金 网 络 中 的 输入 和 输出 信号 被 限制 在 0Oo 和 1， 不 能 携带 任何 中 间 
值 。 换 言 之 ， 新 网 络 中 的 信号 值 可 以 是 0.0023 或 0.755。 为 洲 实 到 具 
体 ， 想 想 太 阳 镜 例子 。 输 入 网 像 中 一 个 像素 的 亮度 对 应 通过 那个 像素 
连接 输出 的 信号 值 。 因 此 ， 一 个 全 白 的 像素 会 发 送 值 1， 而 一 个 全 黑 的 
像素 会 发 送 值 0。 不 同 灰 度 会 对 应 地 产生 0 1 的 值 。 


增强 措施 2: 输入 总 和 通过 加 权 求 和 计算 。 在 带 伞 网 络 中 ， 神 经 
元 在 没有 用 任何 方法 替换 输入 的 情况 下 将 输入 相 加 。 不 过 ， 在 实际 
中 ， 神 经 网 络 考 虑 了 每 个 连接 的 强度 不 同 。 连 接 的 强度 由 一 个 数字 代 
表 ， 这 个 数字 被 称 为 该 连接 的 权重 。 大 的 正 权 重 〈 如 51.2) 代表 了 强 
烈 的 兴奋 性 连接 一 一 当 信 号 穿 过 这 样 的 连接 时 ， 其 下 游 神经 元 极 有 可 
能 会 开火 。 大 的 负 权 重 (如 - 121.8) 代表 了 强烈 的 抑制 性 连接 一 一 信 
写 穿 过 这 样 的 连接 时 ， 其 下 游 神经 元 极 有 可 能 依然 闲置 。 权 重 较 小 
《如 0.03 或 -0.0074) 的 连接 对 其 下 游 神经 元 是 否 开 火影 响 很 小 。 
(在 现实 中 ， 权 重 被 定义 为 “大 ”或 “小 ”只 是 相对 其 他 权重 而 言 ， 
因此 ， 只 有 我 们 假设 这 些 数字 示例 在 同一 神经 元 的 连接 上 ， 这 里 给 出 
的 数字 示例 才 有 意义 。) 当 一 个 神经 元 计算 其 输入 的 总 和 时 ， 每 个 输 

















入 信号 在 加 进 总 和 之 前 ， 都 会 和 其 连接 的 权重 相 乘 。 因 此 ， 大 权重 的 
影响 力 要 比 小 权重 的 大 ， 也 让 兴奋 性 和 抑制 性 信号 有 可 能 相互 抵消 。 


增强 措施 3: 阅 值 的 作用 被 软化 。 闵 值 不 再 将 神经 元 的 输出 限定 
在 全 开 《〈 比 如 1) 或 全 关 《〈 比 如 0) 上 ; 输出 可 以 是 0 和 1 之 间 ( 包 含 0 和 
1) 的 任意 值 。 当 输入 总 和 远 低 于 国 值 时 ， 输 出 会 接近 于 0， 当 输入 总 
和 远 高 于 阔 值 时 ， 输 出 接近 于 1。 但 当 输 入 总 和 接近 阔 值 时 ， 会 产生 一 
个 接近 0. 5 的 中 间 输 出 。 比 如 ， 假 设 一 个 神经 元 的 值 是 6. 2， 强 度 为 
122 的 输入 可 能 会 得 到 0. 995 的 输出 ， 这 是 因为 输入 远大 于 浆 值 。 但 强 
度 为 6. 1 的 输入 接近 阔 值 ， 则 其 可 能 会 产生 一 个 0. 45 的 输出 。 这 种 效果 
在 所 有 神经 元 上 都 有 ， 包 括 最 终 输出 神经 元 。 在 我 们 的 太阳 镜 应 用 
中 ， 这 意味 着 ， 输 出 值 接 近 1 强 烈 上 暗示 了 存在 太阳 镜 ; 而 输出 值 接 近 
0， 则 强烈 暗示 了 不 存在 太阳 镜 。 




















信号 () 5 
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“权重 10 


信号 0.6 x 权重 0.5 
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信号 在 相 加 前 会 来 以 一 个 连接 权重 。 


上 图 展示 了 带 有 全 部 三 种 增强 措施 的 新 型 人 工 神 经 元 。 这 个 神经 
元 接收 来 自 三 个 像素 的 输入 : 一 个 明亮 像素 《信和 号 强度 0.9) 、 一 个 中 
等 明亮 的 像素 〈 信 和 号 强度 0.6) 和 一 个 颜色 较 深 的 像素 〈 信 号 强度 
0.4) 。 这 三 个 像素 跟 神经 元 连接 的 权重 分 别 是 10、0. 5 和 一 3。 这 些 信 
号 先 和 权重 相 乘 再 相 加 ， 得 到 这 个 神经 元 的 输入 信和 号 总 强度 为 8. 1。 
为 8. 1 要 远大 于 神经 元 的 闷 值 2. 5， 因 此 输出 非常 接近 于 1。 








是 通过 学 习 调 整 一 个 神经 网 络 


一 


现在 我 们 已 经 准备 好 去 说 明 ， 调 整 一 个 人 工 神经 网 络 完 竟 意味 着 
什么 。 首 先 ， 每 个 连接 ( 记 住 ， 可 能 会 有 成 干 上 万 个 连接 〉 都 必须 有 
权重 值 ， 这 个 值 可 以 为 正 〈 兴 和 奋 性 ) ， 也 可 以 为 负 《〈 抑 制 性 ) 。 其 
次 ， 每 个 神经 元 都 必须 有 个 合适 的 值 作为 国 值 。 你 可 以 将 权重 和 靖 值 
想象 成 网 络 中 的 小 刻度 盘 ， 每 个 刻度 盘 都 能 像 电 灯 开 关中 的 调 光 器 一 
样 调 上 调 下 。 


手动 调节 这 些 刻 度 盘 需要 耗费 的 时 间 会 令 人 望而却步 。 相 反 ， 我 
们 可 以 使 用 计算 机 在 学 习 阶 段 设 置 这 些 刻 度 盘 。 最 开始 ， 这 些 刻 度 盘 
的 值 都 是 随机 值 。《 这 看 起 来 也 许 非 常 随 意 ， 但 专业 人 士 在 实际 应 用 
中 也 是 这 么 做 的 。) 之 后 ， 计 算 机 会 获得 第 一 个 训练 样本 。 在 这 个 例 
子 中 ， 第 一 个 训练 样本 是 一 个 可 能 戴 也 可 能 没 戴 太 阳 镜 的 人 的 照片 。 
这 个 样本 会 通过 这 个 网 络 处 理 ， 产 生 一 个 在 0 和 1 之 间 的 输出 值 。 然 
而 ， 因 为 这 个 样本 是 训练 样本 ， 我 们 知道 网 络 理应 得 出 的 “目标 ” 
值 。 关 键 点 在 于 稍微 调整 一 下 网 络 ， 让 其 输出 更 接近 于 想 要 的 目标 
值 。 比 如 ， 假 设 第 一 个 训练 样本 恰巧 有 太阳 镜 。 那 么 目标 值 就 是 1。 
此 ， 整 个 网 络 中 的 所 有 刻度 盘 痢 要 稍微 调节 一 下 ， 以 便 让 网 络 输出 值 
隅 目标 值 1 的 方面 转移 。 如 果 第 一 个 训练 样本 不 包 仿 太阳镜， 每 个 刻度 
盘 都 要 朝 相 反 的 方 回 移 去 一 点 点 ， 以 便 让 输出 值 同 目标 值 0 移动 。 你 应 
该 已 经 知道 这 个 过 程 是 如 何 进行 的 了 吧 。 网 络 一 个 接 一 个 地 获得 训练 
样本 ， 每 个 刻度 登 都 要 家 调整 以 提升 网 络 效 能 。 在 多 次 运行 完 历 有 训 
练 样本 后 ， 网 络 的 效能 基本 上 会 达到 很 高 水 平 ， 而 学 习 阶 段 也 以 将 当 
时 的 刻度 盘 配 置 而 结 




















实际 上 ， 如 何 计算 刻度 盘 的 这 些 细微 调整 的 细节 相当 重要 ， 但 这 
需要 一 些 超出 本 书 范围 的 数学 。 我 们 需要 的 工具 是 多 变量 微 积分 
(multivariable calculus) ， 这 一 般 是 在 大 学 中 等 数学 课程 中 教 
授 。 是 的 ， 数 学 的 确 重 要 ! 还 有 ， 注 意 我 在 这 里 描述 的 方法 ， 专 家 称 








之 为 “随机 梯度 下 降 ” (stochastic gradient descent) ， 而 这 只 是 
用 于 训练 神经 网 络 的 多 种 公认 方法 之 一 。 








所 有 这 些 方法 都 有 相同 的 特点 ， 让 我 们 专注 于 大 局 吧 : 神经 网 络 
的 学 习 阶 段 相 当 耗 费 精 力 ， 涉 及 对 所 有 权重 和 靖 值 的 反复 调整 ， 直 到 
网 络 在 训练 样本 上 运作 民 好 。 不 过 ， 所 有 这 些 都 能 被 计算 机 上 自动 完 
成 ， 而 结 末 束 是 一 个 能 简单 高 效 地 对 新 样本 分 类 的 网 络 。 





让 我 们 来 看 看 神经 网 络 如 何 解 决 太阳 镜 问题 。 一 旦 学 习 阶 段 完 
成 ， 从 输入 图 像 到 中 央 神 经 元 的 成 千 上 万 个 连接 ， 都 会 被 赋予 一 个 数 
字 权 重 。 如 果 我 们 能 将 所 有 像素 的 连接 集中 到 一 个 神经 元 上 比如 最 
上 方 的 ) ， 我 们 就 能 通过 将 它们 转化 为 一 张 图 片 ， 从 而 非常 方便 直观 
地 看 到 这 些 权 重 。 权 重 的 视觉 化 在 下 图 中 显示 ， 图 中 所 有 像素 都 只 连 
接 到 一 个 中 央 神 经 元 上 。 在 这 张 视 觉 化 图 中 ， 强 烈 的 兴奋 性 连接 〈 比 
如 大 的 正 权重 连接 ) 显示 为 白色 ， 而 强烈 的 抑制 性 连接 (比如 大 的 负 
权重 连接 ) 显示 为 黑色 。 不 同 灰 度 的 颜色 代表 中 间 强 度 的 连接 。 每 个 
权重 都 显示 在 与 其 相对 应 的 像素 点 上 。 仔 细 看 一 下 图 。 在 太阳 镜 通 冰 
会 出 现 的 区 域 有 一 个 非常 明显 的 由 强烈 抑制 性 权重 组 成 的 地 带 一 一 事 
实 上 ， 你 几乎 可 以 肯定 这 张 权 重 图 真 的 包含 菜 副 太阳 镜 的 图 人像。 我 们 
可 以 称 之 为 太阳 镜 的 “幻影 ”， 因 为 它们 并 不 代表 任何 现实 中 存在 的 
特定 太阳 镜 。 























太阳 镜 网 络 中 连 向 一 个 中 央 神 经 元 的 输入 权重 (比如 强度 ) 。 


考虑 到 设置 权重 并 未 使 用 任何 人 类 知识 告知 太阳 镜 的 一 般 颜 色 和 
位 置 ， 这 个 弥 影 的 出 现 给 人 的 印象 相当 深刻 ， 人 类 提供 的 信息 只 有 一 
系列 训练 图 像 ， 每 个 图 像 都 有 个 简单 的 “是 ”或 “人 否 ” 表 明 其 中 是 否 
有 太阳 镜 。 太 阳 镜 的 约 影 从 学 习 阶 段 反 复 调整 的 权重 中 目 动 译 现 出 
来 。 





另外 ， 图 片 的 其 他 部 分 也 有 许多 明显 的 强权 重 ， 从 理论 上 讲 ， 这 
些 权 重 不 应 该 对 太阳 镜 决 和 俩 有 影响 。 我 们 怎么 才能 解释 这 些 没有 意 
义 、 明 显 是 随机 的 连接 呢 ? 在 这 里 ， 我 们 遇 到 了 人 工 智 能 研究 人 员 在 
过 去 儿 十 年 中 学 到 的 最 重要 的 教训 之 一 : 看 似 智能 的 行为 有 可 能 从 看 
似 随 机 的 系统 中 浮现 出 来 。 如 果 我 们 有 能 力 进入 人 脑 ， 研 究 神 经 元 之 
间 连 接 的 强度 ， 其 中 绝 大 部 分 连接 都 会 表现 得 很 随机 。 然 而 ， 当 作为 
集合 体 行动 时 ， 这 些 连接 强度 的 松散 集合 产生 了 人 的 智能 行为 ! 

















分 类 正确 





太阳 镜 网 络 的 结果 。 
资料 来 源 : 汤姆 。 米 切 尔 (Tom Mitche11) ，《 机 器 学 习 》 (Machine 
Learning) ， 麦 格 劳 - 硕 尔 出 版 社 〈1998 年 ) 。 感 谢 授 权 使 用 该 图 像 。 


上 运用 太阳镜 网 络 


既然 我 们 现在 使 用 着 一 个 能 输出 0 到 1 之 间 任 意 值 的 网 络 ， 你 也 许 
在 想 我 们 该 怎么 才能 得 到 最 终 答案 一 一 图 片 中 的 人 有 没有 戴 太 阳 镜 ? 
正确 的 技巧 极其 简单 : 超过 0. 5 的 输出 被 视 为 “有 太阳 镜 ”， 低 于 0.5 
的 输出 结果 被 视 为 “没有 太阳 镜 ”。 


要 测试 我 们 的 太阳 镜 网 络 ， 我 进行 了 一 次 实验 。 面 部 数据 库 包 含 
约 600 张 图 片 ， 我 将 400 张 图 片 用 于 网 络 学 习 ， 然 后 用 剩余 的 200 张 图 片 
测试 了 网 络 的 效果 。 在 这 个 实验 中 ， 太 阳 镜 网 络 的 最 终 精 确 度 在 85% 左 
右 。 换 言 之 ， 在 太阳 镜 网 络 从 未 见 过 的 图 片 中 ， 当 询问 约 85% 的 图 片 
“里 面 的 人 戴 太 阳 镜 了 吗 ” 这 个 问题 时 ， 太 阳 镜 网 络 都 能 给 出 正确 答 
案 。 上 图 显示 了 一 些 分 类 正确 及 分 类 不 正确 的 图 片 。 检 验 一 个 图 形 识 
别 算法 在 哪些 情况 下 会 失效 总 是 很 吸引 人 ， 这 个 神经 网 络 也 不 例外 。 
上 图 右 侧 没有 被 正确 分 类 的 图 片 中 有 一 两 张 非常 难 识别 ， 甚 至 连 人 都 
可 能 分 辨 不 出 。 不 过 ， 至 少 有 一 张 图 片 ( 右 侧 图 中 的 左上 方 图 ) 对 人 
来 说 非常 好 辨认 一 一 这 个 男人 直 视 镜头 ， 很 明显 也 戴 了 太阳 镜 。 这 类 
时 不 时 出 现 的 神秘 失败 案例 在 图 形 识别 任务 中 很 常见 。 











当然 ， 顶 尖 神 经 网 络 在 这 个 问题 上 的 精确 度 能 远 高 于 85%。 这 里 的 
重点 是 使 用 一 个 简单 网 络 ， 理 解 涉及 的 主要 思想 。 


图 形 识 别 : 过 去 、 现 在 和 未 来 





我 之 前 提 到 过 ， 图 形 识别 是 更 大 的 领域 人 工 智能 〈AI) 的 一 个 方 
面 。 图 形 识别 处 理 高 度 变 化 的 输入 数据 ， 如 音频 、 照 片 和 视频 :AI 处 
理 的 任务 更 多 元 ， 包 括 计 算 机 国际 象棋 、 在 线 聊天 机 器 人 和 人 形 机 顺 
人 。 


人 工 镶 能 是 突然 从 无 到 有 兴盛 起 来 的 ; 在 1956 年 于 达 特 苯 斯 大 学 
举行 的 一 次 会 议 上 ， 一 个 由 10 名 科学 家 组 成 的 小 组 从 根本 上 创立 了 这 
一 领域 ， 让 “人 工 知 能 ”这 个 短语 第 一 次 流行 开 来 。 在 这 次 大 会 创建 
提 各 一 一 大 会 组 织 者 将 其 发 给 了 洛克 菲 勒 基金 会 一 一 的 院 迈 文字 中 ， 
他 们 的 讨论 “将 在 一 个 推测 的 基础 上 进行 ， 这 个 推测 是 学 习 的 每 个 方 
面 或 乔 能 的 任何 其 他 特性 都 能 从 根本 上 加 以 精确 描述 ， 进 而 创造 一 合 
能 模拟 它 的 机 器 。” 





达 特 节 斯 大 会 给 出 了 很 多 承 话 ， 但 哆 现 甚 少 。 而 每 当 研 究 人 员 确 
信和 反问 真正 “智能 ”机 器 的 关键 突破 残 在 眼前 时 ， 他 们 的 宏大 希望 忆 
是 会 被 原型 机 产生 的 机 械 行 为 所 打 雁 。 即 便 神 经 网 络 的 发 展 对 此 帮助 
也 很 小 : 在 数 波 有 前 景 的 活动 之 后 ， 科 学 家 们 也 用 尽 了 对 付 这 堵 机 械 
行为 之 墙 的 方法 。 








不 过 ， 人 工 智 能 肯定 在 慢 慢 地 破解 那些 思想 进程 集合 ， 这 些 思想 
进程 可 能 被 定义 为 只 有 人 类 独 有 。 数 年 来 ， 许 多 人 相信 人 类 国际 象棋 
冠 盏 的 直 党 和 洞 见 能 打败 任何 计算 机 程序 。 计 算 机 程序 必须 依赖 于 预 
设 好 的 规则 集 ， 而 非 直 觉 。 这 种 看 法 对 人 工 智 能 而 言 本 身 已 摇 摇 欲 
险 ， 并 在 1997 年 被 彻底 去 除 ，IBM 的 深蓝 计算 机 在 这 一 年 打败 了 世界 冠 
军 着 瑞 。 卡 斯 由 罗 夫 (Garry Kasparov) 。 











同时 ， 和 人工 乔 能 的 成 功 故 事 也 慢 慢 渗透 到 普通 人 的 生活 中 去 。 通 
过 语 首 识 别 来 服务 消费 者 的 自动 电话 系统 已 经 很 常见 。 视 频 游戏 中 计 
算 机 控制 的 对 手 开 始 表现 出 类 似 于 人 的 战略 ， 甚 至 还 有 个 性 特点 和 纶 
扩 。 亚 马 撑 和 Netflix 等 在 线 服务 开始 基于 自动 推导 的 个 人 豆 好 推荐 丙 
品 ， 而 结果 经 常 令 人 极其 满意 。 





的 确 ， 我 们 对 这 些 任务 的 认 知 已 经 从 根本 上 被 人 工 智 能 的 发 展 改 
变 了 。 想 想 这 个 问题 ， 在 1990 年 肯定 需要 人 类 的 智能 输入 来 规划 一 次 
多 地 停留 的 飞机 旅行 路 线 ， 而 且 人 类 还 会 因为 自己 的 专业 技能 获得 报 
酬 。1990 年 ， 好 的 人 类 旅行 中 介 在 寻找 方便 、 低 成 本 的 路 线 上 会 产生 





巨大 不 同 。 不 过 ， 到 2010 年 ， 计 算 机 在 执行 这 项 任务 上 就 比 人 类 好 上 
很 多 了 。 计 算 机 究竟 如 何 达 到 这 一 点 本 吴 就 是 个 有 趣 的 故事 ， 因 为 它 
们 在 规划 路 线 时 的 确 用 到 了 数 个 迷人 算法 。 但 更 重要 的 是 这 些 系统 对 
我 们 在 这 项 任务 的 认 知 上 的 影响 。 我 会 说 ， 到 2010 年 ， 大 多 数 人 都 会 
认为 规划 路 线 的 任务 是 纯粹 机 械 化 的 行为 一 一 和 20 年 前 的 认 知 形成 鲜 
明 对 比 。 











任务 的 逐渐 转变 一 一 从 明显 是 直觉 性 的 任务 到 显然 是 机 械 化 的 任 
务 一 一 还 在 继续 。 普 过 意义 上 以 及 图 形 识别 中 特殊 意义 上 的 人 工 智能 
正 慢 慢 扩 展 它 们 的 边界 ， 提 升 它 们 的 效能 。 本 和 章 摘 述 的 算法 一 一 最 近 
邻 分 类 上 器、 决策 树 和 神经 网 络 一 一 能 被 运用 于 无 数 实际 问题 中 。 这 包 
括 纠 正 手机 虚拟 键盘 上 胖 手 指 (fat-fingered) 文本 输入 ， 从 一 份 复 
各 的 检验 结果 中 帮助 诊断 病人 疾病 ， 在 上 自动 收费 学识 别 汽车 牌照， 以 
及 决定 向 某 个 计算 机 用 户 展示 什么 广告 一 一 这 里 只 列举 几 个 。 因 此 ， 
这 些 算 法 是 图 形 识别 系统 的 一 些 基 础 构件 。 不 管 你 是 否认 为 它们 是 真 
正 的 “智能 ”， 你 都 将 在 未 来 数 年 中 看 到 更 多 这 些 算法 。 














第 七 章 ” 数 据 压缩 一 有益 无 害 


爱 玛 很 快活 。 如 果 不 是 从 卧室 里 传 来 埃 尔 顿 
太太 的 声音 ， 从 而 妨碍 了 她 ， 使 她 急匆匆 地 
真诚 地 紧 紧 握 住 她 的 手 以 表达 最 诚挚 的 祝愿 
和 深厚 的 感情 ， 她 真 想 立刻 就 表示 有 话 要 
讲 。 


一 简 . 奥斯汀 ，《 爱 玛 》 ( 包 


我 们 对 压缩 实物 的 概念 都 很 熟悉 : 当 你 试图 将 许多 衣服 放 入 一 个 
小 提 箱 中 时 ， 你 可 以 压 一 压 衣 服 ， 让 它们 小 到 能 被 小 提 箱 容纳 ， 即 便 
衣服 的 正常 体积 会 超出 小 提 箱 。 你 压缩 了 衣服 。 之 后 ， 再 从 小 提 箱 中 
拿 出 衣服 时 ， 你 就 能 解压 它们 ， 并 以 它们 的 原始 大 小 和 形状 再 度 穿 着 
〈 和 希望 能 如 此 ) 。 








令 人 惊讶 的 是 ， 我 们 也 有 可 能 对 信息 做 同样 的 事 : 计算 机 文件 和 
其 他 种 类 的 数据 ， 通 常 能 被 压缩 成 更 小 的 体积 ， 以 方便 存储 或 传输 。 
然后 ， 它 们 会 被 解压 并 以 原始 形式 被 使 用 。 


绝 大 多 数 人 的 计算 机 上 有 足够 的 磁盘 空间 ， 无 须 为 压缩 目 己 的 文 
件 烦 心 。 因 此 ， 人 们 倾 问 于 认为 ， 压 缩 对 绝 大 多 数 人 没有 影响 。 但 这 
种 印象 是 错误 的 : 事实 上 ， 计 算 机 系统 背后 经 常用 到 压缩 。 比 如 ， 许 
多 通过 互联 网 发 送 的 消息 都 经 过 了 压缩 ， 用 户 甚至 不 知道 这 一 点 ; 儿 
乎 所 有 软件 都 是 以 压缩 格式 被 下 载 一 一 这 意味 着 你 下 载 和 转移 文件 的 
速度 ， 要 比 不 压缩 时 快 数 倍 。 甚 至 当 你 对 着 电话 讲话 时 ， 你 的 声音 





经 过 了 压缩 : 如 果 电 话 公 司 能 在 传输 语 首 数 据 前 进行 压缩， 它们 束 能 
对 目 己 的 资源 实现 超 高 利用 率 。 


压缩 也 以 更 明显 的 方式 得 到 了 运用 。 流 行 的 ZIP 文 件 格式 运用 的 精 
巧 压 缩 算 法 ， 将 在 本 章 得 到 介绍 。 你 很 有 可 能 也 对 涉及 压缩 数字 视频 
的 得 失 很 熟悉 : 高 质量 视频 的 文件 体积 ， 要 比 相同 视频 的 低 质 量 版 本 
大 很 多 。 


无 损 压 缩 : 终极 免费 午餐 


计算 机 使 用 两 种 截然 不 同 的 压缩 : 无 损 压 缩 和 有 损 压 缩 ， 这 点 很 
重要 。 无 损 压 缩 是 真正 的 免费 午餐 ， 对 你 有 益 无 害 。 一 种 无 损 压 缩 算 
法 能 将 一 个 数据 文件 压 绚 为 其 原始 体积 的 一 小 部 分 ， 然 后 将 其 解压 为 
和 之 前 一 样 的 东西 。 相 反 ， 有 损 压 缩 会 导致 解压 后 的 原始 文件 发 生 一 
些小 改变 。 我 们 稍 后 再 讨论 有 损 压 缩 ， 现 在 让 我 们 专注 于 无 损 压 纵 
吧 。 举 个 无 损 压 缩 的 例子 ， 假 设 原始 文件 包含 本 书 文 本 。 那 么 你 在 压 
缩 前 和 压缩 后 得 到 的 文件 版 本 包含 完全 相同 的 文本 一 一 不 会 有 一 个 
字 、 空 格 或 标点 符号 不 同 。 在 我 们 为 免费 午餐 感到 欣喜 硝 狂 之 前 ， 我 
要 加 一 个 重要 警告 ;无损 压缩 算法 并 不 能 为 所 有 文件 都 节省 大 量 空 
间 。 但 一 个 好 的 压缩 算法 能 为 特定 大 类 的 文件 节省 大 量 空间 。 























那 我 们 怎么 才能 至 受 免费 午餐 呢 ? 你 怎么 才能 在 不 破坏 的 情况 
下 ， 让 一 块 数据 或 信息 比 起 实际 “真实 ”体积 更 小 ， 并 在 之 后 完美 地 
重 构 一 切 东西 呢 ? 事实 上 ， 人 类 一 直 都 在 这 么 做 ， 只 不 过 从 未 想到 过 
去 了 。 想 一 下 你 的 每 周 日 程 。 为 简单 起 见 ， 让 我 们 假设 你 每 天 工作 8 小 
时 ， 每 周 工作 5 天 ， 你 用 一 小 时 的 区 间 来 划分 日 程 。 因 此 ，5 个 工作 日 
的 每 天 都 有 8 个 可 能 的 区 间 ， 每 周一 共有 40 个 区 间 。 然 后 ， 将 你 一 周 的 
日 程 传 输 给 其 他 人 ， 你 必须 传输 40 份 信息 。 但 如 果 有 人 打 电 话 让 你 安 
排 下 周 的 一 个 会 议 ， 你 会 通过 列 出 40 份 分 开 的 信息 来 描述 自己 什么 时 





候 有 空 吗 ? 当然 不 会 ! 最 有 可 能 的 情况 是 ， 你 会 说 些 “ 周 一 和 周二 全 
满 ， 周 四 和 周 五 下 午 1 点 到 3 点 有 预约 ， 其 余 时 间 有 空 ”之 类 的 话 。 这 
就 是 一 个 无 损 数 据 压 缩 的 例子 ! 和 你 谈话 的 人 能 完全 重 构 出 你 下 周 所 
有 40 个 时 段 的 空闲 情况 ， 但 你 却 无 须 详 细 列 出 它们 。 











你 也 许 会 想 这 种 “压缩 ”是 取 巧 ， 因 为 它 取决 于 这 一 事实 : 你 的 
日 程 安 排 中 的 绝 大 多 数 区 块 都 相同 。 特 别 是 ， 周 一 和 周二 全 天 都 有 预 
约 ， 因 此 你 能 非常 快速 地 描述 它们 ， 这 周 剩 下 的 时 间 里 ， 除 了 两 个 时 
间 段 以 外 都 有 空 ， 这 也 很 容易 描述 。 这 的 确 是 个 非常 简单 的 例子 。 不 
管 怎样 ， 计 算 机 中 的 数据 压缩 也 是 按照 这 一 方法 运行 的 ， 基本 加 想 是 
发 现 数据 中 彼此 相同 的 部 分 ， 并 运用 采种 把 戏 更 高 效 地 描述 这 些 洗 


pa 


这 在 数据 包含 重复 片段 时 尤其 简单 。 比 如 ， 你 很 有 可 能 想 出 一 个 
压缩 下 列 数据 的 好 方法 : 








AAAAAAAAAAAAAAAAAAAAABCBCBCBCBCBCBCBCBCBCAAAAAADEFDEFDEF 


如 果 乍 一 看 还 不 明显 ， 思 考 一 下 你 会 如 何 通 过 电话 向 某 人 口述 这 
份 数据 。 和 说 “A、A、A、A、……… 、D、E、F” 不 同 的 是 ， 我 肯定 你 更 
有 可 能 会 说 “21 个 A， 然 后 是 10 个 BE， 接着 是 6 个 4， 最 后 是 3 个 DEF”。 
再 比如 ， 要 很 快 地 在 一 张 纸 上 记 下 这 份 数 据 ， 你 可 能 会 写 “21A、 
10BC、6A、3DEF”。 在 这 个 例子 里 ， 你 将 这 个 包含 56 个 字母 的 原始 数 
据 压缩 成 了 只 有 16 个 字母 的 字符 串 。 这 不 到 原 体 积 的 三 分 之 一 一 一 不 
错 ! 计算 机 科学 家 将 这 种 特别 的 把 戏称 为 行程 长 度 编码 (run - length 
encoding) ， 因 为 它 将 重复 的 “行程 ”和 行程 的 “长 度 ” 编 码 在 了 一 
起 。 


不 笠 的 是 ， 行 程 长 度 编码 只 在 压缩 非常 特殊 的 数据 种 类 上 有 用 。 
它 在 实际 中 也 有 运用 ， 但 大 部 分 时 候 只 和 其 他 压缩 算法 结合 起 来 使 
用 。 比 如 ， 传 真 机 就 将 行程 长 度 编码 和 夯 一 种 被 称 为 霍 夫 曼 编 码 














(Huffman coding) 的 技术 结合 起 来 使 用 ， 我 们 稍 后 将 谈 到 霍 夫 曼 弧 
码 。 行 程 长 度 编码 的 主要 问题 是 ， 数 据 中 的 重复 片段 必须 相 邻 一 一 换 
名 话说， 重复 部 分 间 不 能 有 其 他 数据 。 使 用 行程 长 度 编 码 压缩 ABABAB 
很 容易 “只 是 3AB) ， 但 用 相同 的 把 戏 压 缩 ABXABYAB 就 行 不 通 了 。 





你 也 许 明白 为 什么 传真 机 能 利用 行程 长 度 编码 。 从 定义 上 来 说 ， 
传真 是 黑白 文件 ， 文 件 会 被 转换 成 许多 个 点 ， 每 个 点 都 是 非 黑 即 白 。 
当 你 按 顺 序 阅 读 这 些 点 〈 从 磊 到 在 ， 从 上 到 下 ) ， 你 会 遇 到 大 段 白 点 
《背景 ) 以 及 小 段 黑 点 《前 景 文 本 或 笔迹 ) 。 这 让 使 用 行程 长 度 编码 
变 得 非常 有 效 。 但 正如 之 前 所 提 到 的 ， 只 有 特定 类 型 的 数据 具有 这 一 
特点 。 











于 是 ， 计 算 机 科学 家 们 发 明了 一 系列 更 成 熟 的 把 戏 ， 这 些 把 戏 使 
用 的 基本 思想 都 相同 (寻找 重复 并 高 效 地 描述 它们 〉) ， 但 即便 重复 部 
分 不 相 邻 也 效果 民 好 。 在 这 里 ， 我 们 只 会 研究 其 中 的 两 种 把 戏 : 同 前 
把 戏 (same-as-earlier trick) 和 更 短 符 号 把 戏 (shorter-symbol 
trick) 。 你 只 需要 这 两 个 把 戏 就 能 生成 ZIP 文 件 ， 而 ZIP 文 件 格 式 是 个 
人 电脑 上 压缩 文件 最 流行 的 格式 。 因 此 ， 一 旦 你 理解 了 这 两 个 把 戏 青 
后 的 基本 思想 ， 你 也 就 理解 了 计算 机 在 大 部 分 时 间 里 是 如 何 运 用 压缩 
的 。 


和 ies 


想象 这 就 是 你 要 处 理 的 可 怕 任 务 ， 通 过 电话 癌 菜 人 口述 如 下 数 
据 : 








VJGDNQMYLH-—KW-V JGDNQMYLH-ADXSGF-OVJGDNQMYLH-ADXSGF— 
VJGDNQMYLH-EW-ADXSGF 


这 里 有 63 个 字母 需要 沟通 顺便 说 一 句 ， 我 们 忽略 了 人 破 折 号 ， 加 
入 它们 只 是 为 了 让 数据 更 容易 阅读 ) 。 和 每 次 一 个 字母 地 口述 全 部 63 
个 字母 相 比 ， 我 们 有 更 好 的 办 法 吗 ? 第 一 步 也 许 是 去 识别 数据 中 大 量 
的 重复 部 分 。 事 实 上 ， 大 多 数 被 破 折 号 分 开 的 “ 块 ” 都 至 少 重复 了 一 
次 。 因 此 ， 在 口述 这 份 数据 时 ， 你 可 以 通过 “这 部 分 和 我 之 前 告诉 你 
的 某 个 部 分 一 样 ” 节 省 大 量力 气 。 更 精确 点 讲 ， 你 要 讲 是 多 和 久 前 说 
的 ， 还 要 讲 重 复 的 部 分 有 多 长 一 一 也 许 是 “ 往 回 数 27 个 字母 ， 然 后 复 
制 从 那 一 点 开始 往 下 的 8 个 字母 ”。 





让 我 们 来 看 看 这 一 策略 在 现实 中 效果 如 何 。 最 开始 的 12 个 字母 没 
有 重复 部 分 ， 你 没有 其 他 选择 ， 只 能 按 字母 逐个 口述 : “V、J、6G、 
D、N、Q、M、Y、L、H、K、W”。 但 接 下 来 的 10 个 字母 和 之 前 的 一 些 字 
母 相 同 ， 因 此 你 可 以 说 “back 12，copy 10” ( 数 回 12 个 字母 ， 抄 到 
第 10 个 字母 ) 。 再 下 面 7 个 字母 是 新 出 现 的 ， 按 字母 逐个 口述 : “A、 
D、X、S、G、F、0”。 但 之 后 的 16 个 字母 是 个 大 的 重复 部 分 ， 因 此 你 
可 以 说 “back 17，copy 16”《【 数 回 17 个 字母 ， 抄 到 第 16 个 字母 ) 。 
接 下 来 的 10 个 字母 也 是 之 前 的 重复 部 分 ， 因 此 “back 16， copy 10” 
《 数 回 16 个 字母 ， 抄 到 第 10 个 字母 ) 就 可 以 了 。 再 接 下 来 的 两 个 字母 
没有 重复 ， 需 要 逐个 口述 为 “E、W”。 最 后 的 6 个 字母 是 之 前 的 重复 ， 
可 以 通过 “back 18，copy 6”《【 数 回 18 个 字母 ， 抄 到 第 6 个 字母 ) 沟 
通 。 














让 我 们 尝试 总 结 一 下 这 个 压缩 算法 。 我 们 用 缩写 b 代 替 “back”， 
c 代 替 “copy”。 因 此 一 个 如 “back 18，copy 6” ( 数 回 18 个 字母 ， 
抄 到 第 6 个 字母 ) 的 返回 抄写 指令 简写 为 bl18c6。 因 此 上 面 的 口述 指令 
可 以 被 总 结 成 : 


VJGDNQMYLH-KW-b12c10-ADXSGF-0-bl7c16-bl6c10-EW-b1l8c6 








这 个 字符 串 只 包含 44 个 字母 。 原 始 字 符 串 有 63 个 字母 ， 我 们 节省 
了 19 个 字母 ， 接 近 原 始 字 符 串 长 度 的 1/3。 


同 前 把 戏 中 还 有 一 个 有 趣 的 窃 门 。 你 会 如 何 使 用 相同 的 把 戏 压缩 
FG-FG-FG-FG-FG-FG-FG-FG 这 条 消息 ? (和 之 前 一 样 ， 破 折 号 不 是 消息 
的 一 部 分 ， 只 是 为 增强 可 读 性 而 添加 。) 消息 中 的 FG 有 8 处 重复 ， 因 此 
我 们 可 以 单个 口述 前 4 个 ， 然 后 使 用 如 下 的 返回 抄写 指令 : FG-FG-FG- 
FG-b8c8。 这 会 节省 不 少 字母 ， 但 我 们 可 以 做 得 更 好 。 这 需要 一 个 第 一 
眼看 起 来 可 能 显得 充 座 的 返回 抄写 指令 : “back 2， copy 14” ( 数 
回 2 个 字母 ， 抄 到 第 14 个 字母 ) ， 或 简写 为 bD2c14。 压 缩 的 消息 就 成 了 
FG-b2c14。 在 只 有 2 个 字母 可 供 抄 写 的 情况 下 ， 怎 么 理解 抄 到 第 14 个 字 
母 呢 ? 事实 上 ， 只 要 你 从 重新 生成 的 消息 中 而 非 压缩 的 消息 中 抄写 ， 
就 不 会 有 任何 问题 。 让 我 们 一 步 步 地 来 做 。 在 口述 了 最 开始 的 2 个 字母 
后 ， 我 们 有 了 FG。 然 后 我 们 收 到 b2c14 指 令 ， 于 是 我 们 数 回 2 个 字母 并 
开始 抄写 。 因 为 只 有 2 个 字母 (FG) ， 让 我 们 抄写 这 2 个 字母 ， 当 把 抄 
写 的 字母 加 到 我 们 已 有 的 字母 后 ， 结 果 是 FG-FG。 但 现在 多 了 2 个 字 
母 ! 照样 抄写 这 些 字 母 ， 在 将 它们 添加 到 已 有 的 重新 生成 的 消息 上 之 
后 ， 你 得 到 了 FG-FG-FG。 和 前 一 次 一 样 ， 又 多 出 2 个 字母 ， 于 是 你 又 能 
多 抄写 2 个 字母 。 依 此 类 推 ， 直 到 你 抄写 了 所 要 求 的 字母 数 〈 在 这 个 例 
子 中 就 是 14 个 ) 。 要 检验 自己 是 否 理解 了 这 一 点 ， 看 看 你 能 否 得 到 这 
条 压缩 消息 的 解压 版 ， Ablc250( 人 四)。 


由 更 短 符号 把 戏 


要 理解 名 为 “更 短 符号 把 戏 ” 的 压缩 把 戏 ， 我 们 要 更 深入 探究 计 
算 机 存储 消 轧 的 方式 。 你 之 前 可 能 听 说 过 ， 计 算 机 并 不 真 的 存储 a、 
b、c 这 样 的 字母 。 所 有 东西 都 以 数字 存储 ， 然 后 根据 一 些 固定 表格 翻 
译 为 字母 。 (这 种 在 字母 和 数字 之 间 转 换 的 技术 在 校 验 和 的 讨论 中 有 
提 到 。) 比如， 我 们 可 以 同意 “a” 由 27 代 表 ，“b” 由 28 代 表 ，“c” 
由 29 代 表 。 那 么 字符 串 “abc” 束 可 以 以 “272829” 的 形式 存储 在 计算 
机 中 ， 而 在 屏幕 上 显示 或 打印 在 纸 上 之 前 ， 这 些 数 字 又 能 轻易 翻译 回 
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abc 


下 面 的 表格 给 出 了 一 个 完整 列表 ， 列 出 了 计算 机 也 许 想 存储 的 100 
个 符号 以 及 每 个 符号 对 应 的 两 位 数 代码 。 顺 便 说 一 下 ， 这 个 特别 的 两 
位 数 代码 集 并 没有 在 任何 现实 计算 机 系统 使 用 ， 但 与 现实 生活 中 使 用 
的 代码 相当 相似 。 两 者 的 主要 区 别 是 ， 计 算 机 并 不 使 用 人 类 使 用 的 十 
进 制 数 系统 。 相 反 ， 也 许 你 知道 ， 计 算 机 使 用 一 个 不 同 的 数位 系统 ， 
这 个 系统 被 称 为 二 进 制 系统 。 不 过 ， 这 些 细 市 对 我 们 来 说 并 不 重要 。 
更 短 符号 压缩 把 戏 同 时 对 十 进 制 和 二 进 制 数 系统 奏效 ， 因 此 我 们 假装 
计算 机 使 用 十 进 制 ， 以 使 接 下 来 的 解释 更 容易 。 





仔细 看 看 这 张 符 号 表 。 注 意 表 的 第 一 项 给 出 了 字 与 字 之 间 空 格 的 
数字 代码 “00”。 接 下 来 是 从 A (“01”) 到 Z (“26”) 的 大 写字 
母 ， 以 及 从 a (“27”) 到 z (“52”) 的 小 写字 母 。 再 接 下 来 是 标点 
符号 ， 最 后 一 栏 中 收录 了 一 些 书写 非 英 语 单词 用 到 的 字符 ， 从 
4(“80”) 到 uC “99”) 。 

















那么 计算 机 该 如 何 使 用 这 些 两 位 数 代 码 存 储 “Meet your fiancé 
there” 《去 那 见 你 的 未 婚 夫 ) 这 人 句 话 呢 ? 很 简单 : 只 要 将 每 个 字符 翻 
译 成 对 应 的 数字 代码 并 串联 在 一 起 : 








Meet your fianceé there. 


13 31 31 46 00 51 41 47 44 00 32 35 27 40 29 82 00 46 34 31 
44 31 66 


在 计算 机 中 ， 数 字 对 之 间 是 没有 间隔 的 ， 认 识 到 这 一 点 很 重要 。 
因此 ， 这 条 消息 实际 上 被 存储 为 一 个 46 位 数 的 持续 字符 串 : 
“]1331314600514147440032352740298200463431443166”。 当然， 人 
类 解读 这 个 字符 串 有 点 难 ， 但 对 计算 机 来 说 却 轻而易举 。 在 将 数字 翻 
译 成 字符 显示 在 屏幕 上 之 前 ， 计 算 机 能 轻易 将 数字 分 成 对 。 关 键 是 在 
如 何 分 开 数 字 代 码 上 没有 歧义 ， 因 为 每 个 代码 都 只 是 用 两 个 数字 。 事 
实 上 ， 这 也 是 A 用 “01” 而 不 是 “1” 代 表 的 原因 。 同 理 ，B 是 “02” 而 














不 是 “2”， 一 直到 字母 IL 0(“09” 而 不 是 “9”) 。 如 果 我 们 选择 让 
A=“1”，B=“2”， 依 此 类 推 根本 就 不 可 能 清楚 地 翻译 消息 。 比 
如 ， 消 息 “1123” 可 以 拆 成 “1 1 23” (翻译 为 AAW) , 或 “11 2 3” 
(KBC) 或 “1 1 2 3” (AABC) 。 因 此 ， 请 记 住 这 一 重要 思想 : 数字 
码 和 字符 之 间 的 翻译 必须 清楚 无 异议 ， 即 便 代码 在 没有 空格 的 情况 下 
彼此 相 令 地 存储 。 我 们 马上 就 要 为 这 个 问题 感到 头痛 ! 





回 到 更 短 符号 把 戏 。 和 本 书 中 描述 的 许多 本 该 是 技术 性 的 思想 一 
样 ， 人 类 也 一 直 在 运用 更 短 符 号 把 戏 ， 用 时 甚至 想 都 没 想 过 。 更 短 符 
号 把 戏 的 基本 思想 是 ， 如 果 你 使 用 某 样 东 西 足 够 多 次 ， 给 它 起 个 简短 
缩写 是 很 值得 的 。 所 有 人 都 知道 “USA” 是 “United States of 
America” 【美利坚 合众国 ) 的 缩写 一 一 我 们 所 有 人 每 次 在 输入 或 说 出 
这 个 由 3 个 字母 组 成 的 代码 “USA”， 而 非 其 代表 的 由 24 个 字母 组 成 的 
完整 短语 时 都 节省 了 很 多 力气 。 你 知道 “The sky is blue in 
color”《【 天 空 很 赣 ) 的 缩写 吗 ? 这 个 短 名 恰好 也 由 24 个 字母 组 成 。 当 
然 不 知道 ! 但 为 什么 呢 ? “United States of America” 和 “The sky 
is blue in color” 之 间 有 什么 区 别 ? 关键 区 别 在 于 ， 其 中 一 个 短语 
的 使 用 频率 要 比 另 一 个 大 得 多 ， 而 通过 缩写 一 个 经 党 使 用 的 短语 而 非 
一 个 极 少 使 用 的 短语 ， 我 们 可 以 节省 大 量力 气 。 
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计算 机 用 于 存储 符号 的 数字 码 


让 我 们 尝试 将 这 个 想法 应 用 到 上 一 页 的 代码 系统 中 去 。 我 们 已 经 
知道 ， 通 过 使 用 经 常用 到 的 东西 的 缩写 ， 我 们 节省 的 力气 能 达到 最 
大 。 字 母 “e” 和 “t” 在 身 语 中 使 用 得 最 频繁 ， 让 我 们 尝试 用 更 短 的 
代码 来 代替 这 两 个 字母 。 现 在 ，“e” 是 31，“i” 是 46 一 一 每 个 字母 
都 需要 两 个 数字 代表 。 将 两 个 数字 减 成 一 个 数字 呢 ? 假设 现在 “e” 由 
8 代表 ，“t” 由 9 代表 。 这 个 主意 太 好 了 ! 记得 我 们 之 前 是 如 何 编码 短 
他 “Meet your fiancé there”【〔 去 那 见 你 的 未 婚 夫 〉 的 吧 ， 当 时 一 
共用 了 46 个 数字 。 现 在 我 们 可 以 只 使 用 40 个 数字 : 





Meet your fianceée there. 
138 8 9 005141474400323527402982009 348 448 66 


不 羊 的 是 ， 这 一 计划 有 个 致命 缺陷 。 计 算 机 并 不 存储 单个 字母 间 


的 空格 。 因 此 编码 不 会 像 “13 8 8 9 00 51 ，. . 44 8 66”， 而 是 
和 “138890051. . . 44866” 一 样 。 你 发 现 问 题 了 没有 ? 集中 看 前 5 个 


数字 ， 也 就 是 13889。 注 意 代 码 13 代 表 “M”，8 代 表 “e”，9 代 表 
“t”， 因 此 数字 13889 的 解码 方式 之 一 是 将 其 拆 成 13-8-8-9， 得 到 单 
词 “Meet”。 但 88 代 表 重 读 符号 “4u”， 因 此 数字 13889 也 可 能 拆 分 为 
13-88-9， 即 “Mt”。 事 实 上 ， 人 情况 还 可 以 更 糟 ， 因 为 89 代 表 另 一 个 
略为 不 同 的 重读 符号 “u”， 因 此 13889 的 另 一 种 可 能 拆 分 是 13-8-89， 
代表 “Meu”。 根 本 没 办 法 分 辩 这 三 种 可 能 的 翻译 中 哪 种 正确 。 


这 是 一 场 灾 难 ! 我 们 使 用 更 短 的 代码 代表 字母 “e” 和 “t” 的 精 
巧 计 划 ， 导 致 了 一 个 根本 不 奏效 的 编码 系统 。 圣 运 的 是 ， 再 多 使 用 一 
种 把 戏 就 能 弥补 。 真 正 的 问题 是 当 我 们 看 到 数字 8 或 9 时 ， 我 们 无 从 分 
辨 它 是 一 个 一 位 数 代码 (不管 是 “e” 还 是 “t”) 的 一 部 分 ， 还 是 一 
个 以 8 或 9 开头 的 两 位 数 代 码 〈 如 重读 符号 “4” 和 “e” 等 ) 的 一 部 
分 。 要 解决 这 个 问题 ， 我 们 必须 有 所 牺牲 : 一 些 代 码 实 际 上 会 变 得 更 
长 。 以 8 或 9 开头 的 清楚 的 两 位 数 代码 会 变 成 三 位 数 代码 ， 但 并 不 会 以 8 
或 9 开头 。 下 文 的 图 表 展 示 了 一 种 达成 这 一 目的 的 特殊 方法 。 一 些 标点 





符号 也 受到 了 影响 ， 但 最 终 情 况 良 好 : 任何 以 7 开头 的 数字 都 是 三 位 数 
代码 ， 任 何以 8 或 9 开始 的 数字 都 是 一 位 数 代码 ， 任 何以 0、1、2、3、 
4、5 或 6 开头 的 数字 都 是 和 前 面 一 样 的 两 位 数 代码 。 因 此 ， 现 在 拆 分 数 
字 13889 的 方法 只 有 一 种 (13-8-8-9， 代 表 “Meet”) 一 一 这 也 是 用 于 
其 他 任何 正确 编码 的 数字 字符 串 。 所 有 模糊 性 都 被 消除 了 ， 原 始 消息 
的 新 编码 如 下 : 


Meet your fianceée there. 
138 8 9 0051414744003235274029782009 348 448 66 


原始 编码 使 用 了 46 个 数字 ， 这 次 只 使 用 了 41 个 数字 。 这 看 起 来 也 
许 只 古 玉 省 了 一 忆 所 ， 但 如 果 是 一 条 更 长 的 信息 ， 布 省 的 长 度 就 会 非 
种 明显 。 比 如 ， 本 书 文本 《只 有 文字 ， 没 有 图 像 ) 要 求 将 近 500 KB 
一 一 50 万 字符 一 一 的 存储 空间 。 es ea 
后 ， 本 书 文本 的 体积 减少 到 只 有 160 KB， 不 到 原 体积 的 三 分 之 
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使 用 更 短 符 号 把 戏 的 数字 码 。 与 上 一 个 表格 的 不 同 以 黑体 显示 ， 两 个 常用 字母 的 代 
码 被 缩短 了 ， 代 价 是 用 更 大 的 数字 增长 了 不 常用 符号 的 代码 。 结 有 果 是 大 部 分 消息 的 


用 总结: 免费 午餐 来 自 何方 : 





现在 ， 我 们 理解 了 创建 计算 机 标准 压缩 ZIP 文 件 背 后 的 所 有 重要 概 
。 下 面 是 具体 实施 步骤: 


步骤 一 : 


计算 机 使 用 同 前 把 戏 传输 未 经 压缩 的 原文 件 ， 让 文件 中 绝 大 多 数 
重复 数据 由 短 得 多 的 指令 取代 ， 这 些 指令 会 返回 并 找 贝 其 他 地 方 的 数 
据 。 


从 








步骤 二 : 


计算 机 会 检查 传输 后 的 文件 ， 选 出 经 党 出 现 的 符号 。 比 如 ， 如 宋 
原文 件 以 英语 为 书写 语言 ， 那 么 计算 机 就 很 有 可 能 会 发 现 “e” 和 
“t” 是 最 常 出 现 的 两 个 符 写 。 随 后 ， 计 算 机 会 创建 一 张 如 下 页 的 表 
格 ， 用 短 数 字 码 代表 经 常用 到 的 符号 ， 用 更 长 的 数字 码 代 表 极 少 用 到 


广 生 吕 


的 符号 。 
步骤 三 : 


计算 机 会 通过 直接 将 文件 翻译 为 步骤 二 中 的 数字 码 来 再 次 传输 文 
人 


步骤 二 中 计算 出 的 数字 码 表 也 会 存储 在 ZIP 文 件 中 ， 人 否则 在 后 面 不 
可 能 解码 〈 并 解压 ) ZIP 文件。 注意 ， 不 同 的 未 压缩 文件 会 得 到 不 同 的 
数字 码 表 。 事 实 上 ， 在 真正 的 ZIP 文 件 中 ， 原 文件 被 分 成 了 小 块 ， 每 个 
块 都 有 不 同 的 数字 码 表 。 计 算 机 能 上 自动 高 效 地 完成 所 有 这 些 步骤 ， 实 
现 多 种 文件 的 优质 压缩 。 














有 损 压 缩 : 不 是 免费 午餐 ， 但 也 是 一 笔 好 买卖 





到 目前 为 止 ， 我 们 一 直 都 在 讨论 无 损 压 缩 ， 因 为 你 能 将 压缩 过 的 
文件 重新 组 建成 一 开始 使 用 的 原文 件 ， 连 一 个 字母 或 一 个 标点 符号 都 
没有 改变 。 相 反 ， 有 时 候 使 用 有 损 压 缩 要 有 用 得 多 。 有 损 压 缩 能 让 你 
将 一 个 压缩 过 的 文件 重新 组 建成 一 个 和 原文 件 非常 类 似 ， 但 并 不 完全 
和 原文 件 相同 的 文件 。 比 如 ， 有 损 奈 缩 经 向 用 于 包含 图 片 或 音频 数据 
的 文件 :只 要 照片 在 人 眼中 看 起 来 一 样 ， 在 计算 机 上 存储 照片 的 文件 
古人 否 和 在 相机 中 存储 照片 的 文件 相同 其 实 并 不 重要 。 同 样 的 道理 也 适 
用 于 音频 数据 : 只 要 歌曲 在 人 耳 中 听 起 来 一 样 ， 在 数字 音乐 播放 器 上 
存储 歌曲 的 文件 是 否 和 在 CD 中 存储 歌曲 的 文件 相同 也 并 不 重要 。 


事实 上 ， 有 时候 有 损 压缩 会 以 更 为 极端 的 方式 使 用 。 我 们 都 看 过 
互联 网 上 的 低 质 量 视频 和 图 片 ， 里 面 的 画 质 模糊 ， 首 质 糟 迷 。 这 是 过 
度 使 用 有 损 压 缩 的 结果 ， 目 的 是 让 视频 或 图 像 文件 体积 变 得 非常 小 。 
我 并 不 是 要 说 视频 看 起 来 要 和 原 视频 一 样 ， 但 至 少 也 要 可 以 看 清 。 通 
过 调整 压缩 的 “损失 率 ”， 网 站 操作 人 员 可 以 在 看 起 来 和 听 起 来 几 近 
完美 的 高 质量 大 文件 ， 以 及 有 着 明显 缺陷 但 传输 带宽 要 求 很 少 的 低 质 
量 文件 之 间 进 行 选择 。 你 也 可 能 在 数码 相机 上 做 过 同样 的 事 ， 通 常 你 
能 选择 图 像 和 视频 质量 的 不 同 设置 。 如 果 你 选择 高 质量 设置 ， 你 能 在 
相机 上 存储 的 照片 或 视频 数 ， 就 会 比 选择 低 质量 设置 时 少 很 多 。 这 是 
因为 高 质量 媒体 文件 要 比 低 质 量 媒 体 文 件 占据 更 多 空间 。 而 这 一 切 都 
只 需 通过 调整 压缩 “损失 率 ” 来 完成 。 接 下 来 ， 我 们 将 探 完 几 种 进行 
这 一 调整 的 把 戏 。 


| 抛弃 把 戏 


有 损 压 缩 的 一 个 简单 且 有 效 的 方法 是 直接 抛弃 一 些 数据 。 让 我 们 
来 研究 一 下 “抛弃 ”把 戏 (leave-it-out trick) 如 何在 黑白 照片 上 

















片 由 大 量 小 点 组 成 ， 这 些小 点 被 称 为 “像素 ”。 每 个 像素 只 有 一 种 颜 





色 ， 这 种 颜色 可 以 是 黑 ， 也 可 以 是 白 ， 或 黑 与 白 之 间 的 任意 灰 度 。 当 
然 ， 我 们 通常 不 会 意识 到 这 些 像素 ， 因 为 它们 太 小 了 ， 但 如 果 你 离 显 
示 器 或 电视 屏 足 够 近 ， 就 能 看 到 单个 像素 。 





在 计算 机 中 存储 的 黑白 照片 里 ， 每 个 可 能 的 像素 颜色 都 由 一 个 数 
字 代 表 。 比 如 ， 让 我 们 假设 越 大 的 数字 代表 越 白 的 颜色 ，100 是 最 大 的 
数字 。 因 此 100 代 表白 色 ，0 代 表 黑 色 ，50 代 表 中 等 灰 度 ，90 代 表 浅 灰 
等 等 。 像 素 按照 矩形 方 阵 排列 ， 其 中 每 个 像素 都 代表 图 片 中 一 些 非 常 
小 的 部 分 的 颜色 。 方 阵 的 行列 总 数 就 是 图 像 的 “解析 度 ”。 比 如 ， 许 
多 高 清 电 视 的 解析 度 是 1 920X1 080， 这 意味 着 图 像 有 1 920 列 和 1 
080 行 像素 。 像 素 总 数 就 是 1 920 乘 以 ] 080， 也 就 是 逾 两 百 万 像素 ! 数 
字 相 机 也 使 用 相同 的 术语 。“megapixel” 只 是 个 用 来 表示 百 万 像素 的 
花哨 名 字 。 因 此 ， 一 台 500 万 像素 的 相机 有 足够 多 行 和 足够 多 列 的 像 
素 ， 当 你 将 行 数 和 列 数 相 乘 后 , 得 到 的 数 就 会 超过 500 万 。 当 照片 存储 
在 计算 机 中 时 ， 它 就 是 一 个 数字 列表 ， 每 个 像素 都 由 数字 代表 。 














下 图 中 左上 方 的 带 角楼 的 房屋 照片 , 比 高 清 电 视 的 解析 度 低 很 多 : 
只 有 320X240。 不 过 ， 其 像素 数目 仍然 相当 大 (320X240 = 76 
800) ， 存 储 这 张 照 片 的 文件 , 在 未 压缩 形式 下 占用 了 超过 230 KB 的 存 
储 空间 。1 KB 约 相 当 于 1 000 个 文本 字符 一 一 差不多 是 一 段 电 子 邮件 的 
体积 。 因 此 ， 左 上 方 的 图 在 作为 文件 存储 时 ， 需 要 占用 的 空间 约 等 于 
200 条 短 电子 邮件 消息 。 








我 们 可 以 用 下 列 非常 简单 的 技术 来 压缩 这 个 文件 ， 每 两 行 或 每 两 
列 像素 就 忽略 或 “抛弃 ”一 行 或 一 列 。 抛 弃 把 戏 就 是 这 么 简单 ! 在 这 
个 例子 中 ， 结 果 是 得 到 了 一 张 解析 度 更 小 的 照片 ， 这 张 解析 度 为 
160X120 的 新 照 厂 在 图 中 原 照 片 下 面 显 示 。 新 文件 的 体积 只 有 原文 件 
的 四 分 之 一 〈( 约 57 KB) 。 这 是 因为 新 图 片 的 像素 只 有 原 图 片 像素 的 四 
分 之 一 多 一 一 我 们 同时 去 除了 原 图 片 宽 和 高 各 一 半 的 像素 。 相 当 于 原 











图 片 的 体积 减 小 了 一 半 一 一 一 次 是 水 平方 辐 ， 一 次 是 垂直 方向 一 一 结 
果 就 是 最 终 体 积 只 有 原 体 积 的 1/4。 





我 们 还 可 以 再 用 一 次 抛弃 把 戏 。 将 新 的 160 X120 像 素 图 片 每 两 行 
或 每 两 列 像素 抛弃 一 行 或 一 列 ， 得 到 男 一 张 80X60 的 新 图 片 ， 结 果 显 
示 在 下 图 的 左下 方 。 这 张 图 片 的 体积 又 缩小 了 3/4， 其 最 终 体积 只 有 14 
KB。 相 当 于 原始 文件 体积 的 6%， 这 一 压缩 比率 令 人 印象 非常 深刻 。 





320 x 240 像 素 
[230KB] 


压缩 





站、 NA 
160 x 120 像 素 解压 自 160 x 120 像 素 


[57KB] 


[S7KB] 





80 x 60 像 素 
[14KB] 





解压 自 80 x 60 像 素 
[14KB] 


运用 抛弃 把 戏 的 压缩 ， 左 边 显 示 的 是 原始 图 片 ， 以 及 两 张 该 图 片 的 缩减 版 。 每 张 缩 
减 后 的 图 片 ， 都 通过 抛弃 前 一 张 图 片 一 般 的 行 和 列 计算 得 出 。 右 边 是 将 缩减 后 的 图 
片 解压 到 原始 图 片 同 样 大 小 时 的 解压 效果 图 。 重 构 并 不 完美 ， 重 构图 和 原 图 有 明显 
区 别 。 


但 请 记 住 ， 我 们 在 使 用 有 损 压缩 ， 并 没有 免费 午餐 。 午 餐 很 便 
宜 ， 但 我 们 必须 付 钱 。 当 我 们 将 压缩 过 的 文件 之 一 解压 到 原 图 大 小 
时 ， 看 看 及 生 了 什么 。 因 为 其 中 一 些 像素 行 和 列 被 删除 ， 计 算 机 必须 
推测 这 些 消 失 像 素 的 颜色 是 什么 。 最 简单 的 可 能 推测 是 给 任 一 消失 像 
素 以 其 相 邻 像 素 之 一 的 颜色 。 选 择 任 一 相 邻 像素 都 可 以 ， 但 在 这 个 例 
子 里 ， 计 算 机 选择 了 消失 像素 正 上 方 和 左边 的 像素 。 











这 一 解压 机 制 的 结果 显示 在 图 右 侧 。 能 看 到 大 部 分 视觉 特征 得 到 
了 保留 ， 但 在 画 质 和 细节 上 有 一 些 明 显 损 失 ， 特 别 是 在 树 、 角 楼 房 顶 
以 及 房屋 山形 增 的 格子 通气 孔 等 复杂 区 域 。 另 外 ， 特 别 是 在 解压 目 
80X60 图 片 的 版 本 中 ， 你 能 在 房屋 屋顶 的 斜 线 等 区 域 看 到 一 些 相当 令 
人 不 悦 的 锯齿 。 这 些 现象 被 我 们 称 为 “压缩 缺陷 ” (compression 
artifact) : 不 仅仅 是 细节 的 损失 ， 而 且 有 损 压 缩 的 茶 种 方法 会 在 接 
下 来 的 解压 中 引入 明显 的 新 特征 。 














尽管 殷 弃 把 戏 在 理解 有 损 压 缩 的 基本 思想 上 很 有 用 ， 但 在 这 里 描 
述 的 简单 抛弃 把 戏 却 极 少 用 到 。 计 算 机 的 确 会 “抛弃 ”信息 以 实现 有 
损 压缩 ， 但 它们 对 抛弃 哪些 信息 却 要 小 心得 多 。 这 方面 的 常见 例子 之 
一 ， 就 是 JPEG 图 像 压 缩 格式 。JPEG 是 一 种 精心 设计 的 图 像 压 缩 技术 ， 
它 在 效果 上 要 比 每 两 行列 ) 抛弃 一 行 〈 列 ) 的 抛弃 把 戏 好 很 多 。 仔 
细 看 看 下 面 的 图 ， 将 图 片 的 质量 和 大 小 与 上 图 相 比 。 最 上 方 的 JPEG 图 
片 大 小 为 35 KB， 但 几乎 和 原始 图 片 相 同 。 通 过 抛弃 更 多 信息 并 继续 使 
用 JPEG 格 式 ， 我 们 得 到 了 中 间 大 小 为 19 KB 的 图 。 尽 管 房屋 的 格子 通气 
孔 有 些 模糊 和 细节 上 的 损失 ， 但 中 间 图 片 的 质量 依然 很 棒 。 但 如 果 压 
缩 得 太 厉害 ，JPEG 格 式 也 会 有 压缩 缺陷 : 最 底部 的 JPEG 图 被 压缩 到 只 
有 12 KB， 你 能 看 到 天 空中 出 现 了 一 些 块 状 效果 ， 在 房 顶 斜 线 右边 的 天 
空 也 出 现 了 一 些 令 人 不 快 的 斑点 。 





尽管 JPEG 抛 莽 战 略 的 细节 太 过 技术 化 ， 在 这 里 不 能 完整 描述 ， 但 
这 项 技术 的 基本 原理 还 算 好 说 。JPEG 首 先 将 整 张 图 片 划分 为 83X8 像 素 





的 小 方块 ， 每 个 方块 都 会 被 单独 压缩 。 注 意 ， 在 没有 压缩 的 情况 下 ， 
每 个 方块 代表 8X 8=64 个 数字 。【〔 我 们 假设 这 是 张 黑 日 照片 一 一 如 果 它 
是 彩色 图 片 ， 那 么 就 会 有 三 种 不 同 的 颜色 ， 数 字 会 是 原来 的 三 倍 ， 但 
在 这 里 我 们 不 要 担心 这 一 细节 。) 如 果 方 块 恰好 只 有 一 种 颜色 ， 整 个 
方块 束 能 由 一 个 数字 代表 ， 而 计算 机 就 能 “抛弃 ”63 个 数字 。 如 果 方 
块 大 部 分 由 一 种 颜色 组 成 ， 只 有 少数 像素 的 颜色 略 有 不 同 〈 也 许 一 片 
天 空 的 灰 度 都 相同 ) ， 计 算 机 也 可 以 用 单个 数字 代表 方块 ， 让 方块 得 
到 好 的 压缩 结 末 ， 并 在 稍 后 解压 时 只 出 现 少量 错误 。 在 上 图 中 的 最 后 
一 张 图 中 ， 天 空中 一 些 8X8 的 块 ， 就 是 采用 这 种 方法 压缩 ， 导 致 出 现 
了 一 些 单 色 方块 。 

















JPEG[35KB] 





JPEG[19KB] 





JPEG[12KB] 


使 用 有 损 压缩 机 制 ， 更 高 的 压缩 得 到 的 画 质 更 低 。 这 里 展示 了 使 用 三 种 不 同 JPEG 质 
量 级 别 压缩 同一 张 照片 后 得 到 图 片 。 最 上 面 的 图 片 质 量 最 高 ， 同 时 要 求 的 存储 空间 
也 最 多 。 最 下 面 的 图 片 质量 最 低 ， 要 求 的 存储 空间 不 到 最 上 面 图 片 的 一 半 ， 但 却 有 
明显 的 压缩 缺陷 一 特别 是 在 天 空 和 房 顶 边缘 。 


如 果 8X8 方 块 从 一 种 颜色 渐变 为 另 一 种 颜色 〈 比 如 左边 是 深 灰 
色 ， 右边 是 浅 灰 色 ) ， 那 么 64 个 数字 也 许 能 被 压缩 到 只 有 2 个 : 一 个 深 
灰 的 值 和 一 个 浅 灰 的 值 。JPEG6 算 法 并 不 一 定 这 么 运作 ， 但 它 使 用 了 相 





同 的 思想 : 如 果 一 个 8X 8 方块 符合 一 些 已 知 模式 如 时 时 色 (constant 
color ) 或 渐变 色 (smoothly varying color) 的 组 合 ， 那 么 其 大 部 分 
言明 就 可 以 被 抛弃 ， 只 需 存储 每 个 模式 的 级 别 或 量 即 可 。 











JPEG 格 式 在 图 片上 效果 良好 ， 但 对 音频 和 音乐 文件 呢 ? 这 些 文件 
也 能 使 用 有 损 压 缩 去 压缩 ， 而 且 使 用 了 相同 的 基本 思想 : 抛弃 对 成 品 
影响 很 小 的 信息 。MP3 和 AAC 等 流行 音乐 压缩 格式 通常 使 用 和 JPEG 一 样 
的 高 级 方法 。 音 频 也 会 被 划分 成 块 ， 每 个 块 都 会 被 单独 压缩 。 在 JPEG 
中 ， 以 特定 方式 变化 的 块 能 用 少量 数字 形容 。 不 过 ， 音 频 压缩 格式 也 
能 利用 与 人 耳 有 关 的 已 知事 实 。 特 别 是 ， 有 些 种 类 的 声音 对 人 只 有 很 
小 的 影响 或 没有 影响 ， 因 此 压缩 算法 能 在 不 降低 输出 质量 的 情况 下 消 


pe i 


除 这 些 声 百 。 


| 压缩 算法 的 起 源 


本 章 描述 的 同 前 把 戏 一 一 用 于 ZIP 文 件 中 的 压缩 方法 之 一 一 一 以 
LZ77 算 法 为 计算 机 科学 家 所 熟知 。 这 一 算法 由 两 位 以 色 列 计算 机 科学 
家 亚伯拉罕 。 伦 修 尔 (Abraham Lempel) 以 及 雅 各 布 。 齐 夫 (Jacob 
Ziv》 了 于 1977 年 友 表 。 





不 过 ， 要 退 调 压缩 算法 的 起 源 ， 我 们 需要 把 科学 史 问 前 推 30 年 。 
我 们 已 经 了 解 了 克 劳 德 。 香农 ， 那 位 以 其 1948 年 论文 创建 信息 理论 领 
域 的 贝尔 实验 室 科 学 家 。 香 农 是 纠 错 码 故事 中 《第 五 音 ) 的 两 位 主要 
英雄 之 一 ， 但 他 以 及 他 于 1948 年 发 表 的 论文 在 压缩 算法 的 出 现 上 也 扮 
演 了 重要 角色 。 


这 并 非 偶然 。 事 实 上 ， 纠 错 码 和 压 纵 算 法 是 同一 枚 硬币 的 两 面 。 
两 者 都 来 自 见 余 的 想法 ， 我 们 在 第 五 章 详 细 介 绍 了 见 余 的 概念 。 如 果 
一 个 文件 有 元 余 ， 它 就 比 必 要 的 长 度 长 。 这 里 重复 一 个 第 五 章 的 简单 
例子 ， 文 件 可 以 使 用 单词 “five” 来 代 丛 数字 “5”。 那 样 的 话 ， 像 


“fivq” 这 样 的 错误 就 能 被 轻易 识别 和 纠正 。 因 此 ， 纠 错 人 码 能 被 视 为 
回 消 恩 或 文件 中 添加 元 余 的 原则 性 方法 。 





压缩 算法 正好 相反 : 它们 会 从 消息 或 文件 中 移 除 元 余 。 很 容易 想 
象 一 个 压缩 算法 会 注意 到 文件 中 经 常 使 用 单词 “five”， 并 用 一 个 更 
短 的 符 写 取代 它 〈 其 至 有 可 能 是 符 写 “5”) ， 正 好 反 转 了 纠 错 码 过 
程 。 在 现实 中 ， 压 给 和 纠 错 并 不 会 像 这 样 彼此 抵消 。 相 反 ， 好 的 压缩 
算法 会 移 除 低 效 元 余 ， 而 纠 错 编码 会 增加 另 一 种 更 高 效 的 元 余 。 因 
此 ， 首 先 压缩 一 条 信息 ， 再 往 里 面 添加 一 些 纠 错 码 非常 常见 。 











再 说 回 和 香农， 他 于 1948 年 发 明 的 重要 论文 除了 许多 日 越 页 献 之 
外 ， 还 包含 对 最 早期 压缩 技术 之 一 的 摘 述 。 打 省 理工 学 院 教 授 罗 伯 特 
“法 诡 (Robert Fano) 大 约 在 同时 发 明了 这 一 技术 ， 这 一 方法 现在 以 
香农 一 法 诺 编 码 (Shannon-Fano coding) 命名 。 事 实 上 ， 香 农 一 法 诺 
编码 是 一 种 实施 更 短 符号 把 戏 的 特殊 方法 ， 我 们 在 本 章 前 面 描述 了 更 
短 符号 把 戏 。 我 们 很 快 就 会 知道 ， 香 农 一 法 诺 编 码 很 快 就 被 男 一 种 算 
法 取代 ， 但 这 一 方法 非常 有 效 ， 并 存活 到 了 今天 ， 成 为 ZIP 文 件 格式 的 
可 选 压 缩 方法 之 一 。 














香农 和 法 话 都 意识 到 ， 尽 管 他 们 的 方法 都 既 实 用 义 高 效 ， 但 却 不 
征 最 好 的 算法 : 香农 通过 算术 证 明了 肯定 有 更 好 的 压缩 技术 存在 ， 但 
还 未 找到 实现 它们 的 方法 。 同 时 ， 法 诺 在 扶 省 理工 教授 一 门 信息 理论 
的 研究 生 读 程 ， 他 将 实现 优化 压缩 的 问题 作为 该 课程 学 期 论文 的 可 选 
项 之 一 。 出 人 意料 的 是 ， 法 诡 的 一 位 学 生 解 决 了 这 一 问题 ， 得 到 了 一 
种 针对 每 个 符号 取得 最 佳 可 能 压缩 的 方法 。 这 名 学 生 就 是 大 卫 。 翟 夫 
曼 ， 他 的 技术 一 一 现在 以 翟 夫 曼 编码 来 命名 一 一 则 是 更 短 符号 把 戏 的 
为 一 个 例子 。 霍 夫 曼 编码 仍然 是 一 种 基础 压缩 算法 ， 被 广泛 用 于 通信 
和 数据 存储 系统 。 
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第 八 章 ”数据 库 一 追求 一 致 性 的 征程 


“数据 ! 数据 ! 数据 ! ”他 不 耐烦 地 喊 道 : 
“没有 数据 怎么 推导 。” 





阿 苇 。 柯 南 。 道 尔 
《福尔摩斯 探索 集 》 之 《 桐 山 毛 梯 案 》 

(The Adventure of the Copper 
Beeches) 


想象 如 下 神秘 仪式 : 一 个 人 从 朱 上 和 拿 起 一 囊 特 别 印 制 的 纸 〈 支 聚 
夭 ) ， 在 上 面 写 下 一 些 数字 ， 再 加 上 一 个 市 花饰 的 签名 。 随 后 ， 这 个 
人 把 这 省 纸 最 上 面 的 一 张 纸 撕 下 来 ， 放 进 信 封 ， 再 用 男 一 张 纸 〈 邮 
票 ) 贴 在 信封 正面 。 最 后 ， 这 个 人 把 信封 带 到 外 面 ， 走 过 街道 义 头 ， 
将 信封 放 入 一 个 大 箱子 内 。 


这 是 任何 区 账单 的 人 一 一 电话 账单 、 电 费 账 单 、 信 用 卡 账单 等 
一 一 每 月 都 要 进行 的 仪式 。 直 到 21 世 纪 之 交 时 ， 在 线 账单 支付 和 在 线 
银行 系统 才 发 展 起 来 。 和 这 些 系统 的 简便 性 相 比 ， 之 前 基于 纸张 的 方 
法 费时 费力 、 极 其 低 效 。 





哪些 技术 让 这 一 转变 成 为 可 能 ?最 显然 的 答案 是 互联 网 的 到 来 ， 
没有 互联 网 ， 任 何 形 式 的 在 线 通 信和 都 不 可 能 。 为 一 项 关键 技术 是 公 钠 
加 密 ， 这 一 反 我 们 已 经 在 第 四 半 讨 论 过 。 没 有 公 钥 加 密 ， 机 密 财务 信 
恩 就 不 能 通过 互联 网 安全 地 进行 传输 。 不 过 ， 在 线 交 易 至 少 还 需要 为 
一 种 至 关 重 要 的 技术 : 数据 库 。 笠 好 绝 大 多 数 计 算 机 用 户 不 用 意识 到 











数据 库 的 存在 ， 但 基本 上 上 所 有 在 线 交 易 都 会 使 用 成 熟 的 数据 库 技 术 处 
理 。 计 算 机 科学 家 们 自从 20 世 纪 70 年 代 就 开始 开发 数据 库 技 术 。 





数据 库 针 对 交易 处 理 中 的 两 个 主要 问题 ， 高效 性 和 可 靠 性 。 数 据 
库 通 过 算法 实现 局 效 性 和 可 徘 性 ， 这 些 算法 允许 成 二 上 万 的 客户 在 不 
产生 任何 冲突 或 不 一 致 的 情况 下 同时 进行 交易 ， 也 可 以 在 硬盘 等 计算 
机 组 件 出 现 故 障 的 情况 下 保持 数据 完整 ， 而 硬盘 故障 通常 会 导致 严重 
的 数据 损失 。 在 线 银行 就 是 一 个 标准 的 需要 时 越 高 效 性 〈 同 时 服务 众 
多 客户 且 不 能 产生 任何 错误 或 不 一 致 》 和 近乎 完美 的 可 靠 性 的 应 用 例 
子 。 为 收 束 我 们 的 讨论 ， 我 们 会 经 常 返回 在 线 银 行 的 例子 。 


本 章 中 ， 我 们 将 了 解数 据 库 背 后 三 种 美丽 的 基础 思想 预 写 日 志 
记录 (write-ahead logging) 、 两 阶段 提交 (two-phase commit ) 
和 关系 数据 库 (relational database) 。 这 些 思想 让 存储 特定 种 类 重 
要 信息 的 数据 库 技术 占据 了 绝对 的 主宰 地 位 。 和 前 面 一 样 ， 我 们 将 答 
试 专注 于 每 种 思想 背后 的 核心 洞 见 ， 认 识 一 种 让 思想 舌 效 的 把 戏 。 预 
写 日 志 记 录 的 基础 是 “ 待 办 事项 表 把 戏 ” (to-do list trick) ， 我 
们 将 首先 处 理 这 一 把 戏 。 之 后 ， 我 们 会 转移 到 两 阶段 提交 协议 ， 用 简 
单 但 强大 的 “预备 提交 把 戏 ” (prepare-thencommit trick) 描述 。 
最 后 ， 我 们 会 通过 了 解 有 关 “ 虚 表 把 戏 ” (virtual table trick) 的 
知识 ， 一 舌 关 系数 据 库 的 世界 。 








但 在 学 习 这 些 把 戏 之 前 ， 让 我 们 先 尝试 消除 数据 库 的 神秘 感 ， 明 
日 数据 库 是 什么 。 事 实 上 ， 即 便 是 在 技术 性 计算 机 科学 文献 中 ， 
“database”“【〔 数 据 库 ) 这 个 单词 都 代表 很 多 不 同 的 事物 ， 因 此 不 可 
能 给 它 下 一 个 单一 的 、 正 确 的 定义 。 但 绝 大 多 数 专 家 都 同意 ， 数 据 库 
有 别 于 其 他 存储 信息 的 方式 的 关键 特征 是 ， 数 据 库 中 的 信息 有 一 个 预 
定义 结构 。 


要 理解 这 里 的 “结构 ”意味 着 什么 ， 让 我 们 首先 来 看 一 个 非 结 构 
化 信息 的 例子 : 











罗 西 娜 35 岁 ， 她 和 26 岁 的 玛 特 是 朋友 。 静 家 37 岁 ， 苏 迪 普 31 
岁 。 玛 特 、 静 宜 和 苏 迪 普 都 是 朋友 。 





这 就 是 Facebook 或 MySpace 等 社交 网 站 需要 存储 的 与 其 成 员 有 关 的 
那 类 信息 。 不 过 ， 这 些 社 交 网 站 自然 不 会 如 此 毫 无 结构 地 存储 信息 。 
下 面 是 相同 信息 的 结构 化 形式 : 





名 字 年龄 朋友 

罗 西 娜 ”35 玛 特 

静 宜 。 37 玛 特 ， 苏 迪 普 
-0 


计算 机 科学 家 称 这 种 结构 为 表 〈table) 。 表 的 每 一 行 都 包含 和 单 
件 事情 《在 这 个 例子 里 就 是 一 个 人 ) 有 关 的 信息 。 表 的 每 一 栏 都 包含 
一 个 特定 种 类 的 信息 ， 如 一 个 人 的 年 此 4 或 名 字 。 数据 库 通常 由 许多 玫 
组 成 ， 但 为 简单 起 见 ， 我 们 最 开始 的 例子 只 会 使 用 一 个 表 。 


很 显然 ， 让 人 和 计算 机 操纵 结构 化 表格 中 的 数据 ， 要 比 上 个 例子 
中 非 结构 化 的 目 由 文本 远 为 高 效 。 但 数据 库 对 它们 的 作用 要 远 比 便于 
使 用 多 得 多 。 


我 们 进入 数据 库 世 界 的 旅程 将 从 一 个 新 概念 开始 : 一 致 性 
(consistency) 。 我 们 很 快 就 会 发 现 ， 数 据 库 从 业者 痴迷 于 一 致 性 ， 
而 且 这 么 做 还 有 着 很 好 的 理由 。 从 简单 意义 上 来 说 ， “一致 性 ”指数 
据 库 中 的 信息 并 不 自 相 矛盾 。 如 果 数 据 库 中 有 矛盾 之 处 ， 我 们 就 倍 到 
了 数据 库 管 理 员 最 糟糕 的 吕 梦 ; 不 一 致 。 不 过 ， 一 开始 不 一 致 是 如 何 
产生 的 呢 ? 想象 上 表 的 前 两 行 略为 改变 : 





名 字 年龄 朋友 
罗 西 娜 ”35 ，” 玛 特 ， 静 宜 
静 宜 ”37 ” 玛 特 ， 苏 迪 普 


你 能 发 现 问 题 所 在 吗 ? 从 第 一 行 看 ， 罗 西 娜 是 静 宜 的 朋友 。 但 从 
第 二 行 来 看 ， 静 宜 并 没有 成 为 罗 西 娜 的 朋友 。 这 违背 了 朋友 的 基本 概 
念 ， 只 有 两 个 人 同时 是 朋友 ， 才 能 称 彼 此 为 朋友 。 不 得 不 承认 ， 这 个 
不 一 致 的 例子 相当 温和 。 想 象 一 个 更 严肃 的 例子 ， 假 设 用 “婚姻 ”的 
概念 取代 “朋友 ”。 那 么 结果 会 是 A 和 B 结 了 婚 ， 但 B 又 和 C 结 了 婚 一 一 
这 种 情况 在 许多 国家 都 违法 。 


实际 上 ， 当 新 数据 加 入 数据 库 时 ， 这 种 不 一 致 很 容易 避免 。 计 算 
机 非常 擅长 照章 共事 ， 因 此 证 数据 库 遵循 “如 宁 A 和 B 结 了 婚 ， 那 么 B 必 
须 也 和 A 结婚 ”的 规则 会 很 容易 。 如 果 有 人 试图 输入 一 条 违反 这 条 规则 
的 新 行 ， 他 们 会 收 到 一 条 错误 消 县 ， 输 入 也 会 失败 。 因 此 ， 在 简单 规 
则 的 基础 上 确保 一 致 性 并 不 需要 任何 机 巧 把 戏 。 





但 其 他 种 类 的 不 一 致 需要 更 为 精巧 的 解决 方案 。 我 们 将 在 下 一 部 
分 研究 其 中 一 种 不 一 致 情况 。 


〖 事务 和 竺 办 事项 表 把 戏 


事务 (Transaction) 极 有 可 能 是 数据 库 世 界 中 最 重要 的 思想 。 但 
要 理解 它们 是 什么 ， 以 及 它们 为 什么 必要 ， 我 们 需要 接受 有 关 计 算 机 
的 两 个 事实 。 你 也 许 非常 熟悉 第 一 个 事实 : 计算 机 程序 会 朋 训 一 一 当 
一 个 程序 册 江 时 ， 它 会 丢掉 所 有 正在 处 理 的 东西 。 只 有 安放 在 计算 机 
文件 系统 中 的 信息 会 得 到 保存 。 我 们 要 知道 的 第 二 个 事实 不 太 为 人 所 
知 ， 但 却 极其 重要 : 硬盘 和 闪存 条 等 计算 机 存储 设备 一 次 只 能 写 入 少 














量 数 据 一 一 基本 上 在 500 个 字符 左右 。 (如果 你 对 技术 术语 感 兴 趣 ， 我 
这 里 说 的 是 硬盘 局 区 大 小 《sector size>， 通 常 一 个 鹿 区 可 以 存放 512 
个 字 节 的 信息 。 而 闪存 的 相关 度量 单位 是 页 大 小 《page size>， 闪 存 每 
页 能 存储 成 千 上 万 个 字 节 的 信息 。) 作为 计算 机 用 户 ， 我 们 从 未 注意 
于 一 台 设 备 上 存储 数据 时 的 小 容量 限制 ， 因 为 现代 设备 每 秒 能 执行 成 
于 上 万 次 这 种 500 个 字符 的 写 入 操作 。 但 磁盘 内 容 每 次 只 能 改变 数 百 个 
字符 的 现实 依旧 。 

















这 究竟 和 数据 库 有 什么 关系 ? 它 产 生 了 一 个 极其 重要 的 后 果 : 一 
般 来 次 ， 计 算 机 在 任何 时 候 都 只 能 更 新 一 行 数据 库 信 息 。 不 秆 的 是 ， 
上 面 那个 非常 小 的 简单 例子 并 没有 展示 这 一 点 。 上 面 整个 表 只 包含 不 
到 200 个 字符 ， 因 此 在 这 个 特例 里 ， 计 算 机 应 该 能 一 次 更 新 两 行 。 但 通 
常 来 说 ， 对 于 任何 一 个 大 小 合理 的 数据 库 而 言 ， 更 改 两 行 的 确 需 要 两 
次 单独 的 磁盘 操作 。 








在 了 解 了 这 些 背景 后 ， 我 们 惑 能 触及 问题 核心 了 。 许 多 对 数据 库 
看 似 简 单 的 变更 要 求 更 改 两 行 或 更 多 。 我 们 现在 已 经 知道 ， 更 改 两 行 
不 能 通过 一 次 磁盘 操作 实现 ， 因 此 数据 库 更 新 会 导致 两 次 或 更 多 的 磁 
盘 操 作 。 但 计算 机 可 能 在 茶 个 时 间 崩 尝 。 如 果 计 算 机 在 这 样 的 两 次 磁 
盘 操作 之 间 骨 温 怎 么 办 ?计算 机 会 重启 ， 但 它 会 未 掉 之 前 计划 执行 的 
操作 ， 有 可 能 一 些 必要 更 改 从 未 进行 。 换 言 之 ， 数 据 库 可 能 处 于 不 一 
致 状态 ! 


在 这 种 情况 下 ， 册 尝 后 的 不 一 致 问题 看 起 来 也 许 会 相当 学 术 化 。 
因此 ， 我 们 将 通过 两 个 例子 来 研究 这 一 极端 重要 的 问题 。 让 我 们 从 一 
个 更 简单 的 数据 库 开 始 : 











名 字 ”朋友 
罗 西 娜 无 


静 宜 ”无 


玛 特 无 


这 个 非常 单调 、 令 人 诅 玫 的 数据 库 列 出 了 三 个 抓 独 的 人 。 现 在 假 
设 罗 西 娜 和 静 宜 成 为 朋友 ， 我 们 要 更 新 数据 库 来 反映 这 一 令 人 局 兴 的 
事件 。 正 如 你 知道 的 ， 这 一 更 新 需要 同时 更 改 表 前 两 行 一 一 而 且 正 如 
我 们 之 前 讨论 的 ， 这 通 第 会 要 求 两 次 单独 的 磁盘 操作 。 假 设 我 刚刚 更 
新 了 第 一 行 。 在 这 次 更 新 后 ， 在 计算 机 有 机 会 执行 第 二 次 磁盘 操作 更 
新 第 二 行列， 数据 库 的 情况 如 下 : 





名 字 ”朋友 
罗 西 娜 静 宜 
静 宜 ”无 


玛 特 ”无 








到 目前 为 止 ， 情况 一 切 良 好 。 现 在 ， 数 据 库 程 序 只 需 更 新 第 二 
行 ， 任 务 就 完成 了 。 但 等 等 ， 如 果 计 算 机 在 数据 库 程序 有 机 会 这 么 做 
之 前 束 朋 尝 了 呢 ?” 那 么 在 计算 机 重启 后 ， 它 不 会 知道 第 二 行 仍 需要 更 
新 。 数 据 库 会 像 前 面 一 张 图 一 样 : 罗 西 娜 和 静 宜 成 了 朋友 ， 但 静 宜 没 
有 和 罗 西 娜 成 为 朋友 。 这 就 是 让 人 害怕 的 不 一 致 性 。 





我 已 经 提 到 过 ， 数 据 库 操 作 员 痢 迷 于 一 致 性 ， 但 直到 现在 ， 一 至 
性 看 起 来 也 不 怎么 像 个 大 事 。 毕 竟 ， 静 宜 在 一 个 地 方 被 记录 和 茶 人 成 
为 朋友 ， 在 另 一 个 地 方 的 记录 里 则 没有 朋友 ， 这 真 的 重要 吗 ? 我 们 其 
至 能 想象 出 一 个 经 党 扫描 数据 库 的 目 动 化 工具 ， 寻 找 像 这 样 的 下 盾 之 
处 并 修正 它们 。 事 实 上 ， 像 这 样 的 工具 确实 存在 ， 并 被 用 于 一 致 性 处 
于 次 要 位 置 的 数据 库 中 。 你 甚至 可 能 过 到 过 这 样 的 例子 ， 一 些 操作 系 
统 在 崩 尝 后 重启 时 ， 会 检查 整个 文件 系统 的 不 一 致 性 。 











但 确实 存在 不 一 致 性 非常 有 害 且 不 能 为 自动 化 工具 纠正 的 情况 。 
在 银行 账户 间 转 钱 束 古 个 经 典 例子 。 下 面 是 为 一 个 简单 数据 库 : 





账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 800 
扎 迪 存款 $300 
皮 德 罗 ”支票 $150 


假设 扎 迪 要 求 从 她 的 支票 账户 转 200 美 元 到 她 的 存款 账户 。 就 和 前 
面 的 例子 一 样 ， 这 需要 更 新 两 行 ， 会 连续 用 到 两 次 单独 的 磁盘 操作 。 
首先 扎 迪 的 支票 余额 会 减少 到 600 美 元 ， 其 次 她 的 存款 余额 会 增加 到 
500 美 元 。 而 如 果 我 们 在 这 两 次 操作 间 莹 迪 朋 沉 ， 数 据 库 看 起 来 会 这 
样 : 





账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 600 
扎 迪 存款 $300 

皮 德 罗 。 ”支票 $ 150 


换 句 话说 ， 这 对 扎 迪 来 说 完全 是 一 场 灾难 : 在 崩 尝 前， 扎 迪 的 两 
个 账户 一 共有 1100 美 元 ， 但 现在 她 只 有 900 美 元 了 。 她 从 未 取 过 钱 ， 但 
200 美 元 就 这 么 完全 消失 了 ! 而 且 还 没有 办 法 侦 测 到 这 一 情况 ， 因 为 数 
据 库 在 崩 尝 后 完全 自 相 一 致 。 在 这 里 ， 我 们 过 到 了 一 种 更 为 细微 的 不 
一 致 性 : 新 数据 库 与 其 朋 瀑 前 的 状态 不 一 致 。 





这 点 很 重要 ， 也 值得 更 细致 地 进行 研究 。 在 第 一 个 不 一 致 性 的 例 
子 里 ， 我 们 最 终 得 到 的 数据 库 目 证 为 不 一 致 : A 和 了 B 成 为 朋友 ， 但 B 却 没 
有 和 A 成 为 朋友 。 这 种 不 一 致 性 只 需 通 过 检 杜 数据 库 束 能 侦 测 到 (尽管 








侦 测 过 程 可 能 会 非常 耗 时 ， 如 果 数 据 库 包 含 数 百 万 乃 或 数 十 亿 条 记录 
的 话 ) 。 在 第 二 个 不 一 致 性 的 例子 里 ， 如 果 把 数据 库 所 处 的 状态 当 作 
菏 个 时 刻 的 截图 ， 那 么 这 一 状态 完全 合理 。 没 有 规则 规定 这 些 账 户 的 
余额 必须 是 多 少 ， 或 规定 余额 之 间 存 在 任何 和 关系。 不过， 如果 我 们 按 
时 间 顺 序 检查 数据 库 状 态 ， 就 能 观察 到 不 一 致 行为 。 有 三 个 事实 和 这 
一 情况 有 关 : 《1) 在 开始 转账 前 ， 扎 迪 有 1 100 美 元 ，〈2) 在 朋 训 
后 ， 她 有 900 美 元 ; 《3) 在 干扰 期 间 ， 她 并 未 取 钱 。 这 三 个 事实 放 在 
一 起 就 显得 不 一 致 ， 但 不 一 致 性 不 能 通过 在 特定 时 刻 检查 数据 库 侦 测 
到 。 





为 避免 这 两 种 不 一 致 性 ， 数 据 库 研究 人 员 们 提出 了 “事务 ”的 概 
念 一 一 如 果 想 让 数据 库 最 后 保持 一 致 性 ， 束 必须 在 数据 库 上 完成 一 系 
列 更 改 。 如 果 一 次 事务 中 只 执行 了 一 些 更 改 ， 那 么 数据 库 最 后 就 可 能 
不 一 致 。 这 一 想法 很 简单 ， 但 极其 有 效 。 数 据 库 程序 员 可 以 发 出 如 
“begin ttansaction” (开始 事务 ) 这 样 的 指令 ， 然 后 对 数据 库 做 出 
大 量 互相 依赖 的 更 改 ， 并 以 “end transaction”【〔 终 止 事务 ) 指令 完 
成 。 数 据 库 能 保证 程序 员 的 更 改 都 会 完成 ， 即 便 运行 数据 库 的 计算 机 
在 事务 中 途 朋 演 并 重启 。 


为 确保 绝对 正确 ， 我 们 还 应 该 意识 到 另 一 种 可 能 性 的 存在 : 在 朋 
涡 并 重 忆 后 ， 数 据 库 也 可 能 返回 事务 开始 前 的 状态 。 但 如 果 出 现 了 这 
种 情况 ， 程 序 员 会 收 到 一 条 事务 失败 ， 必 须 重 新 提交 的 通知 ， 以 防 造 
成 任何 损害 。 我 们 稍 后 将 更 细致 地 讨论 这 种 可 能 性 ， 在 关于 “ 回 滚 ” 
事务 (rolling back transaction) 部 分 讲 到 。 至 于 现在 ， 关 键 在 于 
不 管事 务 是 否 完 成 还 是 回 深 ， 数 据 库 仍 然 保持 一 致 性 。 











就 目前 的 描述 来 看 ， 我 们 似乎 没有 必要 疾 迷 于 居 浊 的 可 能 性 。 毕 
竟 ， 骨 省 在 运行 现代 应 用 程序 的 现代 操作 系统 上 极 少 发 生 。 对 这 一 问 
题 有 两 种 回答 。 首 先 ， 这 里 所 说 的 “ 骨 尝 ”相当 宽泛; 包括 任何 可 能 
导致 计算 机 停止 运作 进而 损失 数据 的 事件 。 可 能 的 事件 包括 断 电 、 硬 


盘 出 错 、 其 他 人 硬件 出 错 以 及 操作 系统 或 应 用 程序 中 的 漏洞 。 其 次 ， 即 
便 这 些 泛 指 的 月 尝 极 少 发 生 ， 一 些 数 据 库 也 不 能 承受 朋 尝 的 风险 : 银 
行 、 保 险 公司 和 其 他 数据 代表 实际 金钱 的 组 织 ， 这 些 组 织 不 能 承受 任 
何 情况 下 记录 中 出 现 不 一 致 性 的 风险 。 





上 面 描述 的 解决 方案 的 简洁 性 (开始 一 笔 事 务 ， 执 行 必要 的 操 
作 ， 然 后 终止 事务 ) 听 起 来 也 许 太 过 美好 ， 不 能 成 真 。 事 实 上 ， 下 一 
部 分 描述 的 “每 办 事项 列表 ”把 戏 束 相对 简单 ， 它 也 能 完成 处 理事 
务 。 


上 符 办 事项 列表 把戏 


并 不 是 所 有 人 都 井井有条 。 但 不 管 我 们 是 否 井 井 有 条 ， 我 们 都 见 
过 非常 有 条 理 的 人 使 用 的 强力 武器 之 一 : 待 办 事项 列表 。 也 许 你 并 不 
喜欢 制作 列表 ， 但 很 难 质疑 其 有 用 性 。 如 有 果 你 在 一 天 中 有 10 项 任务 要 
完成 ， 把 它们 写 下 来 一 一 最 好 按 完 成 效率 排序 一 一 束 是 个 非 第 好 的 开 
端 。 妆 你 在 工作 日 中 间 时 刻 分 心 ( 古 人 否 该 说 “ 册 尝 ”? ) 时 ， 一 张 待 
办 事项 列表 会 尤其 有 用 。 如 果 你 不 知 为何 瑟 记 了 剩 下 的 任务 ， 扫 一 眼 
符 办 事项 列表 就 能 让 你 记 起 。 


数据 库 事 务 要 使 用 一 种 特殊 的 待 办 事项 列表 来 完成 。 这 也 是 我 们 
称 之 为 “ 待 办 事项 列表 ”把 戏 的 原因 ， 尽 管 计算 机 科学 家 用 “ 预 写 日 
志 记 录 ” 这 一 术语 称呼 它 。 待 办 事项 列表 的 基本 思想 是 ， 维 护 一 个 数 
据 库 计划 采取 的 动作 日 志 。 日 志 存 储 在 人 硬盘 或 其 他 一 些 永 久 性 存储 介 
质 中 ， 这 样 ， 日 志 中 的 信息 残 能 幸免 于 有 骨 尝 和 重启 。 在 一 项 事务 的 任 
何 动作 得 到 执行 前 ， 它 们 都 被 记录 在 日 志 中 ， 然 后 再 保存 到 磁 援 里 。 
如 果 事 务 成 功 完成 ， 我 们 就 能 删除 日 志 中 的 答 办 事项 列表 ， 进 而 节省 
一 些 空间 。 如 此 ， 上 面 描述 的 扎 迪 转账 事务 将 分 两 步 进行 。 首 先 ， 下 




















图 左 侧 的 数据 库 表 不 动 ， 我 们 在 日 志 中 写 下 本 次 事务 的 待 办 事项 列 
表 : 
账户 名 称 账户 类 型 账户 余额 
扎 迪 支票  $800 
扎 迪 存款 $300 
皮 德 罗 ”支票 ” $150 


预 写 日 志 
1. 开始 转账 事务 
4. 终止 转账 事务 


在 确保 日 志 项 保存 到 了 茶 种 永久 性 存储 介质 〈 如 磁盘 ) 上 后 ， 我 
们 对 表 进 行 计划 好 的 变更 : 


账户 名 称 账户 类 型 账户 余额 
扎 迪 ”支票 ” $600 
扎 迪 存款 $500 
皮 德 罗 支票 ”$150 


预 写 日 志 
1. 开始 转账 事务 
2. 将 扎 迪 的 支票 账户 余额 从 800 美 元 变 为 600 美 元 


3. 将 扎 迪 的 储蓄 账户 余额 从 300 美 元 变 为 500 美 元 
4. 终止 转账 事务 


假设 变更 已 保存 到 磁盘 ， 日 志 项 就 能 被 删除 了 。 


但 这 个 例子 很 容易 。 假 如 计算 机 在 事务 中 途 意 外 地 衣 误 了 呢 ? 和 
前 面 一 样 ， 让 我 们 假设 月 混 发 生 在 扎 迪 的 支 兴 账户 被 扣除 球 项 之 后 ， 
储蓄 账户 增加 球 项 之 前 。 计 算 机 重启 ， 数 据 库 重 局 后 在 便 盘 中 发 现 如 
下 信息 : 








账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 600 
扎 迪 存款 $300 

反 德 支票 $150 


预 写 日 志 

1. 开始 转账 事务 

2 将 扎 迪 的 支票 账户 余额 从 800 美 元 变 为 600 美 元 
3 将 扎 迪 的 储 鞋 账 户 余额 从 300 美 元 变 为 500 美 元 
4 终 上 上 转 几 可 和 


大 大 小 小 的 原子 性 


理解 事务 还 有 另外 一 种 途径 : 从 数据 库 用 户 的 观点 来 看 ， 每 一 笔 
事务 都 是 原子 态 (atomic) 。 尽 管 物理 学 家 们 许多 年 前 就 知道 了 如 何 
拆散 原子 ，“atomic” 的 原意 来 自 和 希腊 ， 意 味 着 “不 可 分 割 ”。 当 计 





算 机 科学 家 说 “原子 态 ” 时 ， 他 们 指 的 是 原意 。 因 此 ， 一 笔 原 始 态 的 
事务 不 能 被 分 成 更 小 的 操作 要么 整 笔 事 务 成 功 地 完成 ， 要 么 数据 库 
处 于 其 原始 状态 ， 惑 像 事务 从 未 开始 一 般 。 


待 办 事项 列表 把 戏 给 了 我 们 原子 态 事务 ， 反 过 来 义 保证 了 一 致 
性 。 这 是 我 们 典型 例子 一 一 一 个 针对 在 线 银行 的 高 效 、 完 全 可 靠 的 数 
据 库 一 一 中 的 一 个 关键 要 素 。 不 过 ， 我 们 还 未 达到 那 一 步 。 一 致 性 并 
不 提供 足够 的 高 效 性 或 可 靠 性 。 当 和 我 们 很 快 就 会 谈 到 的 锁定 技术 
(locking technique) 结合 时 ， 待 办 事项 列表 把 戏 在 数 千 名 消费 者 同 
时 连接 数据 库 时 都 能 保持 一 致 性 。 这 的 确 会 提高 效率 ， 因 为 许多 消费 
者 能 同时 得 到 服务 。 而 且 待 办 事项 列表 把 戏 还 提供 了 一 种 衡量 可 靠 性 
的 好 方法 ， 因 为 它 能 阻止 不 一 臻 性。 特别 是 ， 待 办 事项 列表 把 戏 排除 
了 数据 损坏 ， 但 并 未 消除 数据 丢失 。 下 一 个 数据 库 把 戏 一 一 预备 提交 
把 戏 一 一 将 为 朝 癌 阻止 任何 数据 丢失 的 目标 做 出 巨大 进步 。 





用 于 复制 数据 库 的 预备 提交 把 戏 


我 们 游 哆 精巧 数据 库 搁 术 的 旅程 将 继续 ， 接 下 来 我 们 将 过 到 名 为 
“预备 提交 把 戏 ” 的 算法 。 要 了 解 这 一 把 戏 的 动机 ， 我 们 需要 理解 两 
个 与 数据 库 有 关 的 事实 : 首先 ， 它 们 会 被 复制 ， 也 就 是 次 同一 数据 库 
的 多 份 拷贝 被 存储 在 不 同 地 点 ; 其次， 有 时 候 数据 库 事 务必 须 被 取 
消 ， 这 被 称 为 “ 回 演 ” 或 “放弃 ”一 次 事务 。 在 转 入 预备 提交 把 戏 之 
前 ， 我 们 将 简短 地 了 解 这 两 个 概念 。 


Bi 


通过 完成 或 回 深 朋 混 前 正在 进行 的 事务 ， 答 办 事项 列表 把 戏 允 许 
数据 库 从 特定 种 类 的 有 衣 尝 中 恢复 。 但 前 提 是 假设 所 有 在 崩 尝 前 保存 的 














数据 都 还 在 。 假 如 计算 机 硬盘 永久 损坏 ， 其 中 部 分 或 所 有 数据 都 丢失 
了 呢 ? 这 只 是 计算 机 永久 丢失 数据 的 途径 之 一 。 其 他 原因 包括 软件 漏 
洞 “数据 库 程 序 本 身 或 操作 系统 漏洞 ;和 人 硬件 出 错 。 这 些 问题 都 能 、 
致 计算 机 履 盖 你 认为 安全 地 存储 在 硬盘 上 的 数据 ， 抹 掉 并 用 垃圾 代 
殖 。 很 明显 ， 竺 办 事项 列表 把 戏 在 出 现 这 种 情况 时 不 能 帮助 我 们 。 








然而 ， 在 一 些 情况 中 根本 不 能 出 现 数据 丢失 。 如 果 银 行 丢失 了 你 
的 账户 信息 ， 你 会 极度 郁 问 ， 银 行 可 能 会 面临 严重 的 法 律 和 财务 惩 
罚 。 这 也 适用 于 证 券 交 易 公司 ， 假 如 筷 在 执行 你 下 的 订单 时 丢失 了 区 
易 细 节 。 的 确 ， 任 何 有 可 观 网 络 销售 额 的 公司 〈 易 忠和 亚马逊 束 是 最 
大 的 例子 ) 都 承担 不 起 损失 或 损坏 任何 消费 者 信息 的 后 末 。 但 在 有 成 
和 干 上 万 人 台 计 算 机 的 数据 中 心里 ， 每 天 都 有 许多 组 件 〈 特 别 是 硬盘 ) 出 
错 。 这 些 组 件 上 的 数据 每 天 都 丢失 。 银 行 如 何 能 在 面临 这 种 数据 丢失 
的 惨状 下 保持 你 的 数据 安全 呢 ? 

















显然 同时 也 广泛 使 用 的 解决 方案 是 ， 保 有 两 份 及 以 上 的 数据 库 拷 
贝 。 每 份 数 据 库 拷 贝 都 被 称 为 复制 品 replica) ， 所 有 拷贝 的 集合 被 
称 为 复制 数据 库 (replicated database) 。 通 常 ， 复 制品 在 地 理 上 分 
开 《〈 也 许 位 于 相 隅 数 百 英里 的 数据 中 心里 ) ， 因 此 即便 其 中 一 份 复制 
品 被 一 场 上 自然 灾难 抹 掉 ， 另 一 份 复 制品 也 还 在 。 


我 曾经 昕 到 一 名 计算 机 企业 高 管 这 么 描述 在 2001 年 9 月 11 日 恐怖 分 
子 袭 击 纽约 世贸 中 心 双子 塔 后 该 公司 客户 的 经 历 。 那 家 计算 机 企业 有 
五 个 主要 客户 在 双子 塔 中 ， 所 有 客户 都 运行 着 地 理 上 分 开 的 复制 数据 
库 。 其 中 四 位 客户 能 依靠 剩 下 的 数据 库 拷 贝 基本 不 受 干 扰 地 继续 开展 
业务 。 不 幸 的 是 ， 第 五 位 客户 在 两 座 双 子 塔 中 都 有 一 份 复 制品 ， 但 这 
两 份 都 竺 失 了 ! 这 位 客户 只 能 在 从 站 外 档案 备份 中 恢复 数据 库 后 ， 才 
得 以 重新 开展 业务 。 











注意 ， 复 制 数据 库 和 “备份 ”一 些 数 据 的 常见 概念 有 很 大 不 同 。 
备份 是 某 个 特定 时 刻 对 一 些 数据 的 快照 一 一 对 于 手动 备份 ， 快 照 在 你 


运行 备份 程序 时 进行 ， 而 目 动 备份 通 第 会 在 每 周 或 每 天 的 茶 个 特定 时 
刻 对 系统 进行 快照 ， 比 如 每 天 早晨 2 点 钟 。 换 言 之 ， 一 个 备份 是 一 些 文 
件 、 一 个 数据 库 或 其 他 任何 你 需要 额外 拷贝 的 东西 的 完全 拷贝 。 


不 过 ， 根 据 定义 ， 备 份 并 不 一 定 最 新 : 如 果 在 一 次 备份 之 后 做 出 
一 些 变 更 ， 这 些 变 更 不 会 被 保存 在 备份 中 。 相 反 ， 复 制 数 据 库 随时 保 
持 数 据 库 的 所 有 拷贝 同步 。 每 次 数据 库 中 任 一 项 哪怕 出 现 最 细微 的 变 
更 ， 所 有 复制 品 都 必须 立即 做 出 变更 。 


很 明显 ， 复 制 是 抵御 数据 丢失 的 绝 佳 方法 。 但 复制 也 存在 危险 : 
它 引 入 了 男 一 种 可 能 的 不 一 致 。 如 果 一 个 复制 品 最 后 的 数据 和 男 一 个 
复制 品 不 同 ， 这 时 我 们 该 怎么 办 ? 这 样 的 复制 品 彼此 不 一 致 ， 很 难 或 
不 可 能 判定 哪个 复制 品 中 是 正确 的 数据 。 在 研究 了 如 何 回 深 事 务 后 ， 
我 们 将 再 返回 讨论 这 一 问题 。 


| 回 深 事务 


冒 着 重复 的 风险 ， 让 我 们 答 试 回忆 一 下 事务 究竟 是 什么 : 事务 是 
对 数据 库 的 一 系列 变更 ， 这 些 变更 必须 全 部 执行 以 保证 数据 库 保 持 一 
致 。 在 之 前 对 事务 的 讨论 中 ， 我 们 主要 关注 事务 会 完成 ， 即 便 数 据 库 
在 事务 进行 途中 朋 演 。 

















但 结果 证 明 ， 有 时 候 出 于 一 些 原因 不 可 能 完成 一 项 事务 。 比 如 ， 
也 许 事 务 涉及 回 数 据 库 中 添加 大 量 数 据 ， 而 计算 机 在 事务 中 途 用 完了 
磁盘 空间 。 这 一 情况 非 第 罕见 ， 但 却 很 重要 。 














为 一 个 更 常见 的 未 能 完成 事务 的 原因 和 男 一 个 名 为 锁定 
(Clocking) 的 数据 库 概念 有 关 。 在 一 个 繁忙 的 数据 库 中 ， 通 常会 同时 
执行 多 项 事务 。〔 想 象 一 下 ， 假 如 银行 每 次 只 允许 一 名 用 户 转 账 ， 这 
时 会 发 生 什 么 情况 一 一 这 种 在 线 银 行 系统 的 效能 会 让 人 无 比 震 惊 。) 





在 一 次 事务 进行 中 ， 数 据 库 的 一 些 部 分 会 冻结 ， 这 点 很 重要 。 比 如 ， 
如 果 事 务 A 回 记录 中 上 传 一 个 罗 西 娜 和 毅 宜 成 为 朋友 的 项 ， 而 同时 事务 
B 从 数据 库 中 删除 了 静 宜 ， 这 会 造成 灾难 性 的 后 果 。 因 此 ， 事 务 A 将 
“锁定 ” 包 合 静 宜 信息 的 那 部 分 数据 库 。 这 意味 着 那些 数据 被 冻结 
了 ， 其 他 事务 不 能 改变 它 。 在 大 多 数 数 据 库 中 ， 事 务 能 锁定 单行 或 单 
列 ， 或 整个 表 。 
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死 锁 (deadlock) : 当 两 次 事务 A 和 B 同 时 尝试 锁定 同一 行 
它们 就 会 死 锁 ， 都 不 能 进行 。 





但 方向 相反 一 一 时 ， 





很 明显 ， 一 次 只 能 有 一 项 事务 锁定 数据 库 的 东 个 部 分 。 一 旦 该 项 
事务 成 功 完成 ， 就 会 “解锁 ”之 前 被 它 锁定 的 所 有 数据 。 之 后 ， 其 他 
事务 就 能 更 改 之 前 被 冻结 的 数据 。 


乍 一 看 ， 这 似乎 是 一 个 绝 佳 的 解决 方案 ， 但 这 会 导致 一 个 非常 粳 
料 的 状况 ， 计 算 机 科学 家 称 之 为 死 锁 ， 正 如 上 图 所 示 。 让 我 们 假设 两 
项 事务 A 和 B 同 时 运行 。 正 如 上 图 顶部 所 示 ， 最 初 数 据 库 中 没有 行 被 锁 
住 。 之 后 ， 正 如 上 图 中 部 所 示 ，A 锁 住 了 包含 玛丽 信息 的 那 一 行 ，B 锁 
住 了 包含 上 及 德 罗 信息 的 那 一 行 。 过 后 不 入，A 友 现 需 要 锁 住 皮 德 罗 所 在 
的 行 ，B 发 现 需 要 锁 住 玛丽 所 在 的 行 一 一 这 一 情形 如 上 图 底部 所 示 。 注 
意 ，A 现 在 需要 锁 住 庶 德 多 所 在 的 行 ， 但 一 次 只 能 有 一 项 事务 锁 住 任意 
行 ， 但 B 已 经 锁 住 了 皮 德 罗 所 在 的 行 ! 因此 A 需要 等 到 B 结 束 才 能 锁定 。 
但 B 只 有 在 锁定 玛丽 所 在 的 行 时 才能 结束 ， 而 玛丽 所 在 的 行 目前 又 由 A 
锁定 。 因 此 B 需 要 等 到 A 结 束 才 能 锁定 。A 和 B 互 为 死 锁 ， 因 为 每 项 事务 
都 必须 等 待 另 一 项 事务 才能 进行 。 它 们 会 永远 僵持 下 去 ， 这 些 事务 永 
远 不 会 完成 























计算 机 科学 家 已 经 非常 细致 地 研究 了 死 锁 ， 许 多 数据 库 都 会 定期 
运行 侦 测 死 锁 的 特殊 程序 。 当 发 现 一 个 死 锁 时 ， 其 中 一 项 死 锁 的 事务 
会 取消 ， 以 便 让 另 一 项 事务 进行 。 但 请 注意 ， 就 和 在 事务 进行 途中 耗 
尽 磁盘 空间 时 所 做 的 一 样 ， 这 要 求 具备 撤销 或 “ 回 滚 ” 已 经 部 分 完成 
的 事务 的 能 力 。 现 在 我 们 至 少 知道 了 两 种 事务 需要 回 滚 的 原因 。 还 有 
许多 其 他 原因 ， 但 我 们 在 此 无 须 深 入 。 根 本 点 在 于 ， 事 务 经 常 因为 不 
可 预料 的 原因 而 不 能 完成 。 














回 滚 能 通过 对 竺 办 事项 列表 把 戏 稍 作 变更 来 实现 ; 预 写 日 志 必 须 
包含 足够 的 额外 信息 ， 才 能 在 必要 时 撤销 每 次 操作 。 这 与 之 前 的 描 
述 相 了 矛盾 ， 我 们 在 前 面 强 调 每 一 个 日 志 项 要 包含 足够 多 信息 ， 以 便 在 





月 溉 后 重新 执行 操作 。) 这 在 实践 中 很 容易 达成 。 事 实 上 ， 在 我 们 审 
视 的 简单 例子 中 ， 撤 销 信 息 和 重新 执行 的 信息 都 一 样 。 像 “将 扎 迪 的 
文 票 账户 余额 从 800 美 元 变 为 600 美 元 ”这 样 的 项 能 轻易 “撤销 ”一 一 
只 需 将 扎 迪 的 支票 账户 余额 从 600 美 元 变 为 800 美 元 。 总 之 : 如 果 一 项 
事务 需要 回 滚 ， 数 据 库 程序 只 需 通 过 预 写 日 志 《 比 如 竺 办 事项 列表 ) 
逆向 操作 ， 逆 转 事务 中 的 每 项 操作 。 














预备 提交 把 戏 


现在 ， 让 我 们 思考 复制 数据 库 中 回 深 事务 带 来 的 问题 。 这 里 的 问 
题 是 :其 中 一 份 复制 品 可 能 会 遇 到 了 要 求 回 深 的 问题 ， 而 其 他 复制 品 
则 没有 这 样 的 问题 。 比 如 ， 假 设 其 中 一 份 复 制品 耗 尽 了 磁盘 空间 ， 而 
其 他 复制 品 仍 有 空间 剩余 。 











一 个 简单 的 类 比 在 这 里 会 很 有 帮助 。 假 设 你 和 三 个 朋友 想 一 起 去 
看 一 部 最 近 上 映 的 电影 。 为 了 让 例子 更 有 趣 ， 让 我 们 把 故事 背景 设 在 
20 世 纪 80 年 代 ， 那 时 还 没有 电子 邮件 ， 因 此 电影 之 行将 通过 电话 组 
织 。 你 会 怎么 组 织 ? 下 面 列 出 了 一 种 可 能 的 方法 : 确定 一 个 放映 电影 
的 时 间 ， 这 个 时 间 要 适合 你 ， 就 你 所 知 这 个 时 间 极 有 可 能 也 适合 你 朋 
友 。 假 设 你 选择 了 周二 下 午 8 点 。 下 一 步 就 是 打 电 话 给 其 中 一 位 朋友 ， 
询问 他 或 她 在 周二 下 午 8 点 是 否 有 空 。 如 果 有 空 ， 你 会 说 “ 太 好 了 ， 用 
笔记 下 来 ， 我 等 下 再 打 回 来 确认 ”。 然 后 你 再 打 电 话 给 下 一 位 朋友 ， 
做 相同 的 事 。 最 后 ， 你 打 电 话 给 第 三 位 以 及 最 后 一 位 朋友 ， 提 出 相同 
的 问题 。 如 果 所 有 人 都 在 周二 晚上 8 点 有 空 ， 你 就 能 做 出 最 终 决 定 ， 确 
认 这 一 事件 ， 并 打 电 话 给 朋友 ， 让 他 们 知晓 。 














这 是 简单 的 情形 。 假 如 一 位 朋友 在 周二 晚上 8 点 没 空 呢 ? 那样 的 
话 ， 你 需要 “ 回 深 ” 已 经 做 了 的 所 有 工作 ， 重 新 开始 。 在 现实 中 ， 你 
可 能 会 打 电话 给 每 个 朋友 ， 并 立即 给 出 一 个 新 时 间 ， 但 为 了 让 事情 尽 














可 能 简单 ， 假 设 你 打 电话 给 每 位 朋友 并 说 “不 好 意思 ， 周 二 晚上 8 点 不 
合适 ， 在 你 的 日 程 上 删 掉 它 把 ， 我 会 很 快 打 电 话 告诉 你 新 时 间 ”。 一 
旦 做 完 这 件 事情 ， 你 就 能 重新 开始 整个 流程 。 


注意 ， 在 你 安排 电影 出 行 的 策略 中 有 两 个 截然 不 同 的 阶段 。 在 第 
一 阶段 ， 你 提出 了 日 期 和 时 间 ， 但 并 非 百 分 之 百 地 确定 。 一 旦 你 发 现 
提议 适用 所 有 人 ， 你 才能 百分之百 地 确定 日 期 和 时 间 ， 但 其 他 人 不 知 
道 。 因 此 ， 你 在 第 二 阶段 给 所 有 朋友 打 电 话 回去 确认 。 相 反 ， 如 采 一 
个 或 更 多 朋友 不 能 成 行 ， 第 二 阶段 就 包括 给 所有 人 打 电 话 取消 。 计 算 
机 科学 家 们 将 之 称 为 两 阶段 提交 协议 ; 我 们 称 之 为 “预备 提交 把 
戏 ”。 第 一 阶段 被 称 为 “预备 ”阶段 。 第 二 阶段 要 么 是 “提交 ” 阶 
段 ， 要 么 是 “撤销 ”阶段 ， 取 决 于 最 初 提议 是 人 否 被 所 有 人 接受 。 





有 趣 的 是 ， 这 一 类 比 中 有 个 数据 库 锁 定 的 想法 。 尽 管 我 们 并 未 详 
尽 讨论 它 ， 你 所 有 的 朋友 在 写 下 电影 出 行 时 都 做 了 一 个 不 详尽 的 承 
诡 : 他 们 承 详 不 会 在 周二 晚 8 点 安排 其 他 事 。 直 到 他 们 收 到 确认 或 取消 
的 回信 为 止 ， 日程 表 上 的 那个 时 间 段 都 是 “锁定 ”的 ， 不 能 被 其 他 事 
务 “ 更 改 ”。 比 如 ， 如 果 其 他 人 打 电 话 给 你 朋友 ， 时 间 恰 好 是 第 一 通 
电话 和 第 二 通电 话 之 间 ， 提 议 在 周二 晚 8 点 观看 一 场 篮 球赛 呢 ? 你 朋友 
应 该 会 说 ，“ 对 不 起 ， 但 我 可 能 在 那个 时 间 有 男 一 场 约会 。 在 那 场 约 
会 融 定 前 ， 我 不 能 给 你 确信 和 是否 去 看 这 场 锯 球赛 。” 











现在 ， 让 我 们 审视 一 下 预备 提交 把 戏 如 何在 复制 数据 库 中 起 作 
用 。 下 图 展示 了 这 一 想法 。 一 般 来 说 ， 其 中 一 个 复制 品 是 协同 事务 的 
“主管 ” (master) 。 更 确切 点 讲 ， 假 设 有 三 个 复制 品 A、B 和 C，A 是 
主管 。 假 设 数据 库 需 要 执行 一 项 向 表 中 插入 一 行 新 数据 的 事务 。 预 备 
阶段 从 A 锁定 表 开 始 ， 接 下 来 A 将 新 数据 写 入 其 预 写 日 志 。 同 时 ，A 将 新 
数据 发 给 B 和 C。B 和 C 也 都 会 锁定 各 自 的 表 找 贝 ， 并 在 日 志 中 写 入 新 数 
据 。 然 后 B 和 C 同 A 返回 报告 它们 是 耕 成 功 地 做 了 这 一 事务 。 接 下 来 第 二 
阶段 开始 ， 如 果 A、B 或 C 中 任 一 项 事务 遇 到 了 一 个 问题 〈 比 如 耗 尽 磁盘 











空间 或 未 能 锁定 表 ) ， 主 管 A 就 知道 事务 必须 回 深 ， 并 通知 所 有 复制 
这 一 点 。 但 如 果 所 有 复制 品 都 在 预备 阶段 报告 成 功 ，A 会 同 每 份 复制 品 
发 送 消息 确认 事务 ， 复 制品 接 下 来 会 完成 事务 〈 如 下 图 所 示 ) 。 


口 
口 口 











预备 提交 把 戏 : 主管 复制 品 A 协同 另外 两 个 复制 品 (B 和 0C) 向 表 中 添加 一 些 新 数据 。 
在 预备 阶段 ， 主 管 复制 品 检查 是 否 所 有 复制 品 都 能 完成 事务 。 一 旦 所 有 事情 都 爱 
当 ， 主 管 复制 品 会 让 所 有 复制 品 提交 数据 。 





带 回 滚 操作 的 预备 提交 把 戏 : 本 图 顶部 和 上 一 张 图 顶部 一 样 。 但 在 预备 阶段 ， 其 中 
一 个 复制 品 出 错 。 结 果 ， 本 图 底部 是 “撤销 ”阶段 ， 其 中 每 个 复制 品 都 必须 回 滚 事 
务 。 


到 目前 为 止 ， 我 们 的 处 理 方 式 中 有 两 种 数据 库 把 戏 : 竺 办 事项 列 
表 把 戏 和 预备 提交 把 戏 。 它 们 对 我 们 有 什么 用 ?通过 综合 这 两 个 把 
戏 ， 银 行 一 一 以 及 其 他 任何 在 线 实体 一 一 都 能 使 用 原子 态 事务 布置 复 
制 数据 库 。 而 这 能 在 同时 为 成 于 上 万 的 客户 提供 高 效 服 务 ， 且 基本 上 
不 会 出 现 不 一 致 或 数据 丢失 。 不 过 ， 我 们 还 未 深入 数据 库 的 核心 : 数 
据 如 何 构建 ， 碍 询 如 何 得 到 回答 ? 最 后 一 个 数据 库 把 戏 会 为 这 些 问题 
提供 一 些 答案 。 


中 关系 数据 库 和 虚 表 把 戏 


在 前 面 的 所 有 例子 中 ， 数 据 库 部 只 由 一 张 表 组 成 。 但 现代 数据 表 
技术 的 真正 威力 在 有 多 张 表 的 数据 库 中 才 释 放出 来 。 关 系数 据 库 的 基 
本 思想 是 ， 每 张 表 都 存储 不 同 的 信息 集 ， 但 不 同 表 中 的 个 体 通 各 都 以 
某 种 方式 相连 。 因 此 ， 一 个 公司 的 数据 库 也 许 是 由 不 同 的 表 组 成 ， 这 
些 表 包括 客户 信息 、 供 应 商 信息 和 产品 信息 。 但 客户 表 可 能 会 提 及 产 
品 表 的 东西 ， 因 为 客户 会 订购 产品 。 也 许 产 品 表 会 提 及 供应 商 表 中 的 
东西 ， 因 为 产品 由 供应 商 的 商品 制造 。 














让 我 们 来 看 一 个 真实 的 小 例子 : 由 大 学 存储 的 信息 详细 列 出 了 学 
生 要 上 哪些 诬 程 。 为 便于 管理 ,例子 中 只 会 有 几 位 学 生 和 几 门 诬 程 ， 
但 希望 你 能 明白 ， 同 一 原理 也 适用 于 大 得 多 的 数据 量 。 





首先 ， 让 我 们 看 看 数据 会 如 何 使 用 简单 的 一 张 表 方式 进行 存储 ， 
我 们 在 本 章 前 面部 分 一 直 使 用 这 一 方法 。 整 个 过 程 在 下 面 的 项 图 中 显 
示 。 你 可 以 看 到 ， 数 据 库 中 有 10 行 和 5 列 ， 衡 量 这 个 数据 库 信息 量 的 一 
个 简单 方法 是 说 ， 数 据 库 中 有 10X5 = 50 个 数据 项 。 花 几 秒 钟 更 细致 





地 研究 下 面 的 表 。 有 什么 东西 让 你 对 信息 存储 的 方式 感到 恶心 吗 ? 比 
如 ， 你 能 看 到 任何 不 必要 的 数据 重复 吗 ? 你 能 想到 存储 相同 信息 更 有 
效 的 方式 吗 ? 














你 可 能 已 经 意识 到 ， 有 关 每 门 课程 的 大 量 信息 都 复制 给 了 参加 该 
门 课程 的 所 有 学 生 。 比 如 ， 三 名 学 生 参 加 ARCH101 课 程 ， 而 关于 这 门 课 
程 的 细节 信息 《包括 课程 名 、 讲 师 和 房间 号 ) 都 癌 每 位 学 生 重 复 了 。 
存储 这 些 信 息 更 高 效 的 方法 是 使 用 两 张 表 : 一 张 表 存储 学 生 们 上 哪些 
课 ， 另 一 张 表 存储 与 每 门 课程 有 关 的 细节 。 这 种 双 表 策略 在 下 面 的 底 
图 中 显示 。 











学 生 名 课程 号 课程 名 讲师 ”房间 号 
弗朗西斯 卡 ”HIST256 ”欧洲 历史 。 史密斯 教授 ”851 
。 苏 因 MATH314 微分 方程 ”科比 教授 560 


路 易 吉 ”HIST256 ”欧洲 历史 ”史密斯 教授 ”851 
路 易 吉 MATH314 ”微分 方程 ”科比 教授 ”560 


”比尔 。 ARCH101 考古 学 入 门 布莱克 教授 610 
比尔 ”HIST256 。 网 洲 历史 史密斯 教授 851 
罗斯 。 MATH314 ”微分 方程 。 科比 教授 。 560 
罗斯 ”ARCH101 考古 学 入 门 布莱克 教授 610 





学 生 名 课程 号 
弗朗西斯 卡 ARCH101 
弗朗西斯 卡 ”HIST256 


苏 珊 MATH314 
埃 里 克 “MATH314 
HIST256 
MATH314 
比尔 “ARCH101 
比尔 HIST256 
罗斯 ”MATH314 
罗斯 ”ARCH101 


课程 号 课程 名 讲师 ”房间 号 
ARCH101 考古 学 入 门 ”布莱克 教授 ”610 

HIST256 ”欧洲 历史 ”史密斯 教授 ”851 
MATH314 ”微分 方程 ”科比 教授 560 





顶 图 : 学 生 课 程 的 单 表 数 据 库 
底 图 : 用 两 张 表 更 高 效 地 存储 了 相同 数据 





我 们 马上 能 看 到 这 种 多 表 方 法 的 好 处 之 一 : 要 求 的 存储 总 量 减少 
了 。 新 方法 使 用 了 一 个 10 行 2 列 的 表 (10X2 = 20 个 项 ) 和 一 个 3 行 4 列 
的 表 (3X4 = 12 个 项 ) ， 总 共 是 32 个 项 。 相 反 ， 一 表 方 法 需要 50 个 项 
才能 存储 相同 多 的 信息 。 


市 省 是 如 何 实现 的 呢 ? 它 来 自 于 对 重复 信息 的 消除 : 和 重复 每 位 
学 生 选 取 的 每 门 课程 的 名 称 、 讲 师 和 房间 号 不 同 ， 这 些 信息 只 向 每 门 
读 程 列 出 了 一 次 。 尽 管 我 们 牺牲 了 一 些 东西 来 实现 这 一 点 : 现在 课程 
号 出 现在 两 个 地 方 ， 两 张 表 中 都 有 一 个 “课程 号 ” 列 。 我 们 用 大 量 重 
复 〈 谍 程 细 节 ) 和 少量 重复 〈 课 程 号 ) 进行 了 交换 。 总 体 而 言 ， 这 是 
笔 好 交易 。 这 个 小 例子 中 的 收获 并 不 大 ， 但 你 也 许 想 象 得 出 ， 如 宁 有 




















成 百 上 千 的 学 生 参 加 同一 门 读 ， 通 过 这 一 方法 将 节省 巨大 的 存储 空 
间 。 


多 表 方 法 还 有 另 一 个 巨大 优势 。 如 果 表 设计 无 误 ， 对 数据 库 的 变 
更 会 更 容易 。 比 如 ， 假 设 课程 MATH314 的 房间 号 从 560 变 为 440。 在 一 表 
方法 中 ， 有 四 个 单独 的 行 需 要 更 新 。 而 且 ， 正 如 我 们 之 前 讨论 的 ， 这 
四 次 更 新 需要 包含 在 一 次 事务 中 ， 以 确保 数据 库 保 持 一 致 。 但 在 多 表 
方法 中 ， 只 需要 进行 一 次 更 改 一 一 更 新 课程 细 市 表 中 一 项 即 可 。 
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在 这 里 有 一 点 值得 指出 ， 这 个 简单 的 学 生 诬 程 例子 使 用 两 个 表 来 
代表 最 高 效 ， 真 实 的 数据 库 通 常会 和 许多 表 协 同 。 很 容易 想象 用 新 表 
扩展 学 生 诬 程 的 例子 。 比 如 ， 可 能 有 一 张 包 含 每 位 学 生 细 节 的 表 ， 如 
学 生 号 、 电 话 号 以 及 家 寿 住 址 。 可 能 还 有 一 张 讲师 表 ， 列 出 讲师 的 电 
子 邮箱 地 址 、 办 公 地 点 和 办 公 时 间 。 每 个 表 部 被 设计 用 其 大 多 数列 存 
储 数据 ， 以 便 让 这 些 数据 不 在 其 他 地 方 出 现 一 一 这 种 方法 的 思想 是 ， 
不 管 何 时 要 求 菜 个 特定 物体 的 细节 ， 我 们 都 能 在 相关 表 中 “查询 ”这 
些 细 市 。 

















在 数据 库 术语 中 ， 表 中 用 于 “查询 ”细节 的 列 被 称 为 “ 键 ”。 比 
如 ， 想 象 一 下 如 何 寻 找 路 易 吉 的 历史 课 房 间 号 。 通 过 使 用 上 一 节 所 述 
的 单 表 方 法 ， 我 们 只 需 扫 描 表 中 的 行 ， 直 到 找到 路 易 吉 的 历史 课 ， 然 
后 查询 房间 号 列 ， 得 到 结果 851。 但 在 多 表 方 法 中 ， 我 们 最 开始 扫描 第 
一 个 表 ， 以 发 现 路 易 吉 的 历史 课 课程 号 一 一 也 了 驶 是 “HIST256”。 然 后 
我 们 将 “HIST256” 作 为 其 他 表 的 键 使 用 : 通过 寻找 包含 课程 号 
“HIST256” 的 行 ， 查 询 这 门 课 程 的 细节 ， 然 后 在 该 行 中 寻找 房间 号 
( 即 851)〉。 这 一 过 程 在 下 图 中 显示 。 


















课程 号 ”课程 名 讲师 


房间 号 






路 易 吉 HIST256 
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用 键 查找 数据 : 为 找到 路 易 吉 历史 课 的 房间 号 ， 我 们 首先 要 找到 左 表 中 的 相关 课程 
号 。 然 后 这 个 值 “HI1ST256” 会 被 用 作 另 一 张 表 的 键 。 因 为 课程 号 栏 以 字母 表 顺 序 排 
序 ， 


我 们 能 很 快 找到 正确 的 行 ， 然 后 获取 对 应 的 房间 号 (851) 。 





像 这 样 使 用 键 的 美妙 之 处 在 于 ， 数 据 库 能 以 超 高 效率 查询 键 。 这 
和 人 在 字典 中 查询 一 个 单词 类 似 。 想 想 你 会 如 何在 纸 质 词典 中 查找 
“epistemology” (认识 论 ) 这 个 单词 。 目 然 地 ， 你 不 会 从 第 一 页 开 
始 ， 扫 描 每 个 项 以 查找 “epistemology”。 相 反 ， 你 很 快 就 能 通过 碍 
看 页 首 来 缩小 范围 ， 你 最 开始 会 大 块 翻 页 ， 然 后 会 慢 慢 放 慢 翻 页 的 幅 
度 ， 逐 渐 靠 近 你 的 目标 。 数 据 库 使 用 同样 的 技术 查找 键 ， 但 它们 要 比 
人 高 效 得 多 。 这 是 因为 数据 库 能 提前 计算 出 需要 翻 多 少 “ 块 ”页 ， 并 
能 记录 每 块 开 始 和 结束 的 页 首 。 计 算 机 科学 中 有 一 种 用 于 快 键 查 找 的 
预计 算 块 集合 被 称 为 B 树 〈B-tree) 。B 树 是 另 一 种 文 持 现 代数 据 库 的 
关键 精巧 思想 ， 但 不 竺 的 是 ， 对 B 树 进行 细致 讨论 会 离 题 太 远 。 
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我 们 准备 好 去 领会 多 表 数 据 库 背后 精巧 的 主要 思想 了 。 虚 表 的 基 
础 思想 很 简单 : 尽管 所 有 的 数据 库 信 息 都 能 存储 在 一 个 固定 大 小 的 表 
中 ， 数 据 库 能 在 需要 时 生成 新 的 临时 表 。 我 们 称 这 些 表 为 “ 虚 表 ”， 
以 强调 它们 不 会 被 存储 到 任何 地 方 的 事实 一 一 当 数 据 库 在 回答 对 数据 
库 的 碍 询 并 且 需 要 虚 表 时 就 会 创建 它们 ， 并 立即 删除 它们 。 





举 个 简单 例子 来 说 明 虚 表 把 戏 。 假 设 我 们 从 前 文 底 图 描述 的 数据 
库 开 始 ， 一 名 用 户 输入 一 个 查询 ， 询 问 所 有 上 科比 教授 课 的 学 生 名 
字 。 数 据 库 处 理 这 一 查询 的 方法 有 许多 种 ; 我 们 会 审视 其 中 一 种 方 
法 。 第 一 步 是 创建 一 张 新 虚 表 ， 列 出 所 有 课程 的 学 生 和 讲师 。 这 可 以 
通过 合并 (join) 一 一 一 种 特殊 的 数据 库 操作 一 一 两 个 数据 库 来 完 
成 。 合 并 的 基本 思想 是 将 一 个 表 中 的 每 一 行 和 男 一 张 表 对 应 行 结合 起 
来 ， 对 应 是 通过 同时 出 现在 两 张 表 中 的 键 栏 建立 起 来 的 。 比 如 ， 当 我 
们 合并 第 前 文 底 图 两 张 表 时 ， 会 使 用 “课程 号 ”作为 键 ， 结 果 了 就 是 一 
张 如 前 文 顶 图 一 样 的 虚 表 一 一 每 个 学 生 都 和 第 二 张 表 中 相关 课程 的 所 
有 细节 相 结 合 ， 人 们 可 以 使 用 “课程 号 ”作为 键 查 找 这 些 细 节 。 当 
然 ， 原 始 查 询 和 学 生 们 及 讲师 有 关 ， 因 此 我 们 不 需要 其 他 栏 。 幸 运 的 
是 ， 数 据 库 包 含 一 个 扫射 (projection) 操作 ， 能 让 我 们 抛弃 不 感 兴 
趣 的 栏 。 因 此 在 将 两 张 表 结合 的 合并 操作 后 ， 会 有 抛射 操作 移 除 一 些 
不 必要 的 栏 ， 最 终 数 据 库 得 到 了 下 面 的 虚 表 : 

















学 生 名 讲师 
弗 明 西 斯 卡 布莱克 教授 
弗 衣 西 斯 卡 史密斯 教授 
苏 珊 科比 教授 
埃 里 克 ”科比 教授 


史密斯 教授 
科比 教授 
比尔 “布莱克 教授 
比尔 ” ”史密斯 教授 
罗斯 科比 教授 
罗斯 ”布莱克 教授 


接 下 来 ， 数 据 库 会 使 用 另 一 种 名 为 选取 〈select) 的 重要 操作 。 
选取 操作 会 基于 一 些 标准 ， 从 一 张 表 中 选取 一 些 行 ， 并 抛弃 其 余 的 
行 ， 生 成 一 张 新 虚 表 。 在 这 个 例子 中 ， 我 们 在 寻找 上 科比 教授 诬 的 学 
生 ， 因 此 我 们 要 进行 一 次 “选取 ”操作 ， 只 选择 讲师 为 “科比 教授 ” 
的 行 ， 得 到 的 虚 表 如 下 : 


学 生 名 ”讲师 
苏 珊 ”科比 教授 

埃 里 克 科比 教授 

路 易 吉 科比 教授 
罗斯 ”科比 教授 


查询 快 完成 了 。 现 在 我 们 需要 的 是 为 一 次 抛 财 操 作 ， 抛 弃 “ 讲 
师 ” 栏 ， 余 下 一 张 回答 原始 查询 的 虚 表 : 





学 生 名 
苏 珊 
埃 里 克 


路 易 吉 














罗斯 





我 认为 值得 在 此 添加 一 个 略 显 技术 性 的 提示 。 如 果 你 恰巧 对 数据 
库 碍 询 语言 SQL 很 熟悉 ， 你 也 许 会 觉得 上 面 对 “ 选 取 ” 操 作 的 定义 相当 
奇怪 ， 因 为 SQL 中 的 “选取 ”命令 功能 比 只 选取 一 些 行 大 得 多 。 这 一 术 
语 来 自 于 一 种 数据 库 操作 数学 理论 ， 也 就 是 知名 的 关系 代数 
(relational algebra) ,其 中 的 “选取 ” 仅 用 于 选取 行 。 关 系 代 数 还 
包含 “合并 ”和 “抛射 ”操作 ， 这 两 项 操作 在 寻找 科比 教授 学 生 的 碍 
询 中 用 到 过 。 


| 关系 数据 库 


一 个 将 其 所 有 数据 都 存储 在 我 们 之 前 用 过 的 互联 表 中 的 数据 库 被 
称 为 关系 数据 库 。 关 系数 据 库 由 IBM 研 究 员 埃 德 加 。 科 德 (E. FE. 
Codd) 在 其 于 1970 年 发 表 的 极 具 影响 力 的 论文 《大 型 共享 数据 库 数 据 
的 关系 模型 》 (A Relational Model of Data for Large Shared 
Data Banks) 中 提出 。 和 科学 上 许多 伟大 思想 一 样 ， 回 过 头 看 关系 数 
据 库 似乎 很 简单 一 一 但 在 那 时 ， 它 们 代表 了 在 高 效 存储 和 处 理 信息 上 
的 巨大 飞跃 。 结 果 显 示 ， 只 需 几 种 操作 《如 我 们 之 前 见 过 的 关系 代数 
操作 “选取 ”、“ 合 并 ”以 及 “抛射 ”) 束 足够 生成 虚 表 ， 回 应 几 平 
所 有 对 关系 数据 库 的 查询 。 因 此 ， 关 系数 据 库 能 将 数据 存储 在 为 高 效 
性 而 构建 的 表 中 ， 使 用 虚 表 把 戏 回应 似乎 需要 在 不 同 表 中 数据 的 查 
询 。 


这 也 是 关系 数据 库 被 用 于 文 持 大 多 数 电 子 商务 活动 的 原因 。 当 你 
网 上 购物 时 ， 你 很 有 可 能 就 和 一 系列 关系 数据 库 表 进行 了 互动 ， 这 些 
表 存 储 了 与 产品 、 客 户 和 单 次 购买 相关 的 信息 。 在 网 络 空间 中 ， 我 们 
无 时 无 刻 不 被 关系 数据 库 所 包围 ， 很 多 时 候 甚 至 没有 意识 到 它们 的 存 
在 。 























| 数据 库 的 人 性 面 


对 于 一 般 的 劳 观 者 而 言 ， 数 据 库 也 许 是 本 书 中 最 不 令 人 激动 的 主 
题 。 要 为 数据 存储 感到 激动 很 难 。 但 在 背后 ， 让 数据 库 奏 效 的 精巧 思 
想 却 是 力 一 回 事 。 建 立 在 能 在 任何 操作 中 途 出 错 的 硬件 上 ， 数 据 库 给 
予 我 们 期 望 在 线 银行 及 类 似 活动 能 拥有 的 高 效 性 和 坚实 可 靠 性 。 待 办 
事项 列表 把 戏 给 了 我 们 原子 态 事务 ， 即 便 成 干 上 万 的 客户 同时 和 一 个 
数据 库 互 动 也 能 保持 一 致 性 。 这 种 并 发 性 的 深厚 程度 ， 与 虚 表 把 戏 提 
供 的 快速 得 询 啊 应 能 力 一 道 ， 让 大 型 数据 库 高 效 化 。 待 办 事项 列表 把 
戏 还 保证 了 面临 出 错时 的 一 致 性 。 当 与 用 于 复制 数据 库 的 预备 提交 把 
戏 结合 时 ， 我 们 就 获得 了 牢靠 的 一 致 性 以 及 数据 的 持久 性 。 








数据 库 对 不 可 靠 组 件 的 英勇 胜利 一 一 计算 机 科学 家 称 之 为 “ 容 
错 ” (fault-tolerance) 一 一 是 许多 研究 人 员 在 过 去 几 十 年 间 的 成 
果 。 但 其 中 最 重要 的 贡献 者 是 吉姆 。 格雷 (Jim Gray) 。 格 雷 是 位 超 
级 计算 机 科学 家 ， 撰 写 了 有 关 事务 处 理 的 数据 。[ 这 本 书 名 为 《 事 
务 处 理 : 概念 与 技术 》 (Transaction Processing: 
Concepts and Techniques) ， 该 书 于 1992 年 首次 出 
有 披 。] 令 人 遗憾 的 是 ， 他 的 职业 生涯 很 早 就 结束 了 : 2007 年 的 一 天 ， 
他 苔 驶 自己 的 游艇 由 金门 大 桥 出 旧金山 湾 ， 进 行 一 次 计划 好 的 白昼 旅 
行 ， 准 备 前 往 旧 金山 湾 附 近 公 海中 的 一 些 岛 屿 。 目 此 以 后 ， 格 雷 和 他 
的 船 音信 全 无 。 这 个 悲剧 故事 中 有 一 处 温暖 人 心 的 转折 ， 格 雷 在 数据 
库 社区 的 许多 朋友 使 用 格雷 的 工具 尝试 拯救 格雷 旧金山 附近 海域 最 
新 得 到 的 卫星 照片 被 上 传 到 一 个 数据 库 中 ， 以 便 让 朋友 们 和 同事 们 搜 
寻 这 位 失踪 数据 库 先 锋 的 线索 。 不 笠 的 是 ， 这 次 搜寻 并 不 成 功 ， 计 算 
机 科学 世界 丧失 了 一 位 领军 人 物 。 





第 九 章 履 字 签名 一 一 这 个 软件 究 况 由 淮 
编写 


为 了 证 明 你 错 得 多 厉害 ， 你 的 假设 是 多 么 没 
有 根据 ， 我 把 证 书 摆 在 你 面前 .……: 看 看 它 ! 
你 可 以 拿 在 手 里 看 ; 它 绝 非 伪造 。 


一 一 查尔斯 。 狄更斯，《 双 城 记 》 


在 本 书 的 所 有 思想 中 ， 最 矛盾 的 也 许 要 数 “ 数 字 签名 ” (digital 
signature) 概念 了 。 从 字面 来 看 ， 单 词 数字 化 (digital) 数字 化 意 
味 着 其 “由 数字 字符 串 组 成 ”。 因 此 ， 根 据 定 义 ， 任 何 数字 化 的 东西 
都 能 被 拷贝 : 要 做 到 这 一 点 ， 只 要 每 次 拷贝 一 下 数字 就 行 。 如 果 你 能 
读 取 数字 ， 束 能 拷贝 数字 ! 另 一 方面 ，“ 签 名 ”的 全 部 意义 在 于 能 被 
读 取 ， 但 不 能 被 除 作者 外 的 任何 人 拷贝 (也 就 是 伪造 ) 。 怎 么 才 有 可 
能 创造 一 个 数字 化 的 ， 但 又 不 能 被 拷贝 的 签名 呢 ? 我 们 将 在 本 章 为 这 
一 有 趣 的 悖 论 发 现 解 决 方案 。 


数字 签名 真正 的 用 途 有 哪些 ? 


数字 签名 的 用 途 有 哪些 ? 问 这 个 问题 也 许 显得 多 余 。 你 也 许 会 想 ， 我 
们 能 在 纸 质 签名 用 到 的 地 方 使 用 数字 签名 ; 签 普 文 票 或 其 他 法 律 文 
件 ， 如 出 租 一 间 公 寓 。 但 如 果 你 思考 一 阵子 ， 你 会 意识 到 这 不 对 。 当 
你 进行 在 线 文 付 时 ， 不 管 是 用 信用 卡 还 是 通过 在 线 银 行 系统 ， 你 会 提 
供 任何 种 类 的 签名 吗 ? 没有 。 基 本 上 ， 在 线 信 用 卡 文 付 并 不 要 求 签 





名 。 在 线 银行 系统 略 有 不 同 ， 因 为 它们 会 要 求 你 用 密码 登录 ， 以 帮助 
验证 你 的 吴 份 。 但 如 果 你 稍 后 于 在 线 银行 对 话 期 间 进 行文 付 ， 也 不 需 
签名 。 





White files from the Internet can be useful this file type can potentially harm 
your compyuter. Only run software from publishers you trust. What's the risk? 


The pubisher could not be verified. Are you sure you want to run this 
software? 


Name: setup.exe 
Publisher: Unknown pubisher 


This file does not have a valid digital signature that verifies its publisher You 
should only run software from publishers you trust. How can T decide what 


计算 机 会 自动 检查 数字 签名 。 
顶 图 : 当 我 试图 下 载 并 运行 一 个 拥有 有 效 数字 签名 的 程序 时 ， 网 络 浏览 器 显示 的 消 


人 0 


底 图 : 当 数 字 签 名 失效 或 缺失 时 ， 网 络 浏览 器 显示 的 消息 。 


那么 ， 数 字 签 名 在 实际 生活 中 有 哪些 用 途 呢 ? 答案 可 能 和 你 一 开 
始 的 想法 相反 : 与 你 签署 友 送 给 其 他 人 的 材料 不 同 ， 基 本 上 是 其 他 人 
先 签 荔 材料 再 发 送 给 你 。 你 很 有 可 能 并 未 意识 到 这 一 点 的 原因 是 ， 数 
字 签 名 由 计算 机 自动 验证 。 比 如 ， 不 管 你 何 时 想 下 载 并 运行 程序 ， 网 
络 浏 览 占 都 会 检查 程 友 是 否 有 数字 签名 以 及 数字 签名 是 否 有 效 。 然 后 
浏览 露 再 显示 一 个 合适 的 警告 ， 如 上 图 所 示 。 
































如 你 所 见 ， 这 里 有 两 种 可 能 性 。 如 果 软 件 拥 有 有 效 签名 “如 上 页 
顶 图 ) ， 计 算 机 能 完全 肯定 地 告诉 你 编写 该 软件 的 公司 名 。 当 然 ， 这 
并 不 能 保证 软件 安全 ， 但 至 少 你 能 基于 对 该 公司 的 信任 程度 做 出 充分 
了 了解 后 再 做 决定 。 有 反之， 如果 签名 失效 或 缺失 (如 上 页 底 图 ) ， 你 绝 
不 会 得 到 软件 来 自 哪里 的 保证 。 即 便 你 认为 自己 下 载 的 软件 来 目 一 个 
信誉 民 好 的 公司 ， 也 有 可 能 黑客 用 一 些 恶 意 软 件 丛 换 了 真正 的 软件 。 
软件 也 有 可 能 由 业余 人 士 编 写 ， 他 们 没有 时 间或 动力 去 创造 一 个 有 效 
的 数字 签名 。 在 这 些 情况 下 ， 和 是 否 安装 取决 于 用 户 是 否 信任 软件 。 

















尽管 软件 签名 是 数字 签名 最 明显 的 应 用 ， 但 这 绝 不 是 仅 有 的 一 种 
应 用 。 事 实 上 ， 计 算 机 接收 和 验证 数字 签名 的 频率 非常 多 ， 因 为 一 些 
经 党 使 用 的 互联 网 协议 也 使 用 数字 签名 ， 验 证 与 你 进行 交互 的 计算 机 
的 身份 。 比 如 ， 网 络 地 址 以 “https” 开 头 的 安全 服务 器 在 建立 一 个 安 
全 对 话 前 ， 通 常会 癌 你 的 计算 机 发 送 一 个 数字 签名 证 书 。 数 字 签 名 还 
应 用 于 验证 许多 软件 组 件 的 真实 性 ， 比 如 浏览 器 插件 。 你 在 浏览 网 页 
时 很 有 可 能 已 经 见 过 这 样 的 警告 消息 。 














你 也 可 能 遇 到 另外 一 种 网 络 签名 : 一 些 网 站 会 要 求 输入 名 字 ， 作 
为 网 络 表格 的 签名 。 比 如 ， 妆 我 及 送 为 学 生 写 的 推荐 信 时 ， 有 时 我 必 
须 这 么 做 。 这 并 不 是 计算 机 科学 家 所 指 的 数字 签名 ! 很 显然 ， 伪 造 这 
种 输入 的 签名 曼 不 费力 ， 任 何 知 着 你 名 字 的 人 都 能 伪造 。 在 本 章 ， 我 
们 将 学 习 如 何 创造 一 个 不 能 被 伪造 的 数字 签名 。 








纸 质 签名 


我 们 对 数字 签名 的 解释 会 一 步 步 实 现 ， 先 从 纸 质 签名 的 熟悉 场景 
开始 ， 再 慢 慢 转向 精巧 的 数字 签名 。 下 面 正式 开始 ， 让 我 们 回 到 一 个 
没有 计算 机 的 世界 。 在 那个 世界 里 ， 唯 一 确认 文件 可 靠 的 方式 就 是 纸 
质 手 写 签 名 。 注 意 ， 在 这 种 场景 下 ， 一 份 已 经 签 普 的 文件 不 能 单独 验 
证 。 比 如 ， 假 设 你 找到 的 一 张 纸 上 写 着 “我 承 诡 向 弗 衣 索 瓦 丝 文 付 100 
美元 。 签 名 ，Ravi ”一 一 如 下 图 所 示 。 你 如 何 才能 验证 拉 维 〈Ravi) 
真 的 签署 了 这 份 文 件 呢 ? 答案 是 你 需要 一 些 受 信 签名 库 ， 你 可 以 在 这 
个 签名 库 中 核实 拉 维 签名 的 真实 性 。 在 现实 世界 中 ， 银 行 、 政 府 等 机 
构 会 扮演 这 一 角色 一 一 它们 的 确 会 保留 存储 有 客户 签名 的 文件 ， 这 些 
文件 在 必要 时 可 进行 物理 核实 。 在 我 们 的 假想 场景 中 ， 让 我 们 假设 有 
一 个 名 为 “ 纸 质 签名 银行 ” (paper signature bank) 的 受信 机 构 保 
留 每 个 人 的 签名 文件 。 下 图 就 是 一 个 纸 质 签名 银行 的 概要 图 例 。 

















一 个 用 文件 存储 其 客户 身份 及 手写 签名 的 银行 。 











Paper 
Signature Bank 


Ravi ne 
Takeshi Tak esh 


Francoise NaNcoltses 






一 份 带 有 一 个 手写 签名 的 纸 质 文件 。 


要 验证 拉 维 在 承诺 文 付 弗 天 索 瓦 丝 的 文件 上 的 签名 ,我们 只 需 前 





往 纸 质 签名 银行 ， 要 求 查看 拉 维 的 签名 即 可 。 很 显然， 我 们 在 这 里 做 
出 了 两 个 重要 假设 。 痛 先 ， 我 们 假设 能 信任 这 家 银行 。 理 论 上 ， 该 银 
行 的 员工 可 能 将 拉 维 的 签名 换 成 假冒 者 的 签名 ， 但 我 们 在 这 里 要 忽略 
这 种 可 能 性 。 其 次 ， 我 们 假设 假冒 者 不 可 能 伪造 拉 维 的 签名 。 每 个 人 
都 知道 ， 这 一 假设 错 得 离谱 : 熟练 的 造假 者 能 轻易 伪造 签名 ， 即 便 是 
业余 人 士 ， 也 能 制作 合理 的 相似 签名 。 不 管 怎样 ， 我 们 需要 签名 不 可 
伪造 这 一 假设 一 一 没有 它 ， 纸 质 签名 就 会 早 无 用 处 。 我 们 将 在 后 面 知 
道 ， 为 何 数 字 签 名 基本 上 不 可 能 伪造 。 这 也 是 数字 签名 对 纸 质 签名 的 
一 大 优势 。 














时 用 挂 锁 签 名 


一 


我 们 迈 加 数字 签名 的 第 一 步 是 完全 抛弃 纸 质 签名 ， 采 用 一 种 依赖 
挂 锁 、 钥 是 和 已 锁 箱 子 的 新 方法 验证 文件 。 新 机 制 的 每 位 参与 者 〈 在 
这 个 例子 中 就 是 拉 维 <Ravi> 、 勇 《Takeshi> 和 弗 上 朗 索 瓦 丝 
“Francoise>) 都 有 大 量 挂 锁 供 应 。 每 位 参与 者 拥有 的 挂 锁 都 一 样 ， 
此 拉 维 的 挂 锁 都 一 样 ， 这 点 很 关键 。 另 外 ， 每 位 参与 者 的 挂 锁 都 必须 
是 独 有 的 : 其 他 人 不 能 制作 或 获得 拉 维 的 挂 锁 。 最 后 ， 本 章 所 有 挂 锁 
都 具有 一 个 相当 不 同 寻 和 常 的 特性 它们 装备 有 生物 传感器 ， 以 确保 只 
有 它们 的 所 有 者 能 上 锁 。 如 果 弗 朗 索 瓦 丝 发 现 有 一 把 拉 维 的 挂 锁 没 锁 
上 ， 她 不 能 用 拉 维 的 挂 锁 去 锁 任 何 东 西 。 当 然 ， 拉 维 还 会 得 到 打开 自 
己 挂 锁 的 钥匙 。 因 为 拉 维 所 有 的 挂 锁 都 一 样 ， 所 有 钥匙 也 都 一 样 。 到 
目前 为 止 描述 的 场景 显示 在 下 页 图 中 。 我 们 将 这 一 最 谍 设 置 称 为 “ 实 
体 挂 锁 把 戏 ” (physical padlock trick) 。 








现在 ， 让 我 们 和 之 前 一 样 假设 ， 拉 维 欠 弗 朗 索 瓦 丝 100 美 元 ， 而 上 弗 
明 索 瓦 丝 想 用 一 种 可 验证 的 方法 记录 这 一 信息 。 换 言 之 ， 弗 朗 索 瓦 丝 
想 要 和 上 图 一 样 的 文件 ， 却 又 不 必 依 赖 于 手写 笔迹 。 下 面 就 是 这 一 把 
戏 的 运作 方式 。 拉 维 制作 一 份 文件 ， 上 面 显示 “ 拉 维 承 诡 癌 弗 明 索 拟 
丝 文 付 100 美 元 ”， 但 并 不 用 在 上 面 签名 。 拉 维 会 制作 一 份 该 文件 的 找 
贝 ， 并 将 文件 放 在 一 个 加 锁 的 箱子 内 加 锁 的 箱子 非常 坚固 ， 能 用 挂 
锁 锁 上 ) 。 最 后 ， 拉 维 用 一 个 挂 锁 锁 上 箱子 ， 并 把 锁 上 的 箱子 给 弗 朗 
索 瓦 丝 。 完 整 包 于 如 下 图 所 示 。 准 确 地 说 ， 上 锁 的 箱子 就 是 文件 的 签 
名 。 注 意 ， 这 对 弗 表 索 瓦 丝 或 一 些 受信 目击 者 来 说 是 个 好 主意 ， 能 观 
看 签名 的 创建 过 程 。 否 则 ， 拉 维 就 可 以 通过 在 箱 内 放 上 一 份 不 同 的 文 
件 来 作 浆 。 (可 以 论证 的 是 ， 如 果 加 锁 的 箱子 透明 ， 这 一 机 制 的 效果 
会 更 好 。 毕 竟 ， 数 字 签 名 提供 可 靠 性 ， 而 非 隐秘 性 。 不 过 ， 透 明 锁 箱 
有 所 不 和 从 直觉， 因此 我 们 不 会 退 求 这 一 可 能 性 。) 

















在 实物 挂 锁 把 戏 中 ， 每 位 参与 者 都 能 得 到 独 有 的 相同 挂 锁 和 钥匙 。 


也 许 你 已 经 知道 了 弗 明 索 瓦 丝 验 证 拉 维 文件 可 靠 性 的 方法 了 。 如 
果 任 何人 一 一 甚至 是 拉 维 目 己 一 一 试图 否认 这 份 文 件 的 真实 性 ， 弗 时 
索 瓦 丝 都 能 说 “好 ， 拉 维 ， 请 借 我 一 把 你 的 钥匙 。 现 在 我 要 用 你 的 钥 
古来 打开 这 个 锁 箱 。” 在 拉 维 和 其 他 目击 者 《甚至 有 可 能 是 法 院 法 
官 ) 的 见证 下 ， 弗 归 索 瓦 丝 打 开 挂 锁 ， 展 示 锁 箱 里 的 内 容 。 然 后 弗 明 
索 拟 丝 继续 说 : “ 拉 维 ， 因 为 你 是 唯一 接触 能 用 这 把 钥匙 打开 的 锁 的 
人 ， 其 他 人 不 可 能 对 锁 箱 内 容 负 责 。 因 此 ， 是 你 ， 也 只 有 你 能 写 这 张 
欠条 ， 并 把 它 放 到 锁 箱 内 。 你 确实 欠 我 100 美 元 ! ” 














尽管 这 一 开始 听 起 来 很 复杂 ， 但 这 一 认证 方法 既 实 用 又 强大 。 然 
而 ， 这 种 方法 确实 有 些 缺 点 。 其 主要 问题 是 ， 它 要 求 拉 维 的 配合 : 在 
弗 明 索 瓦 丝 能 证 明 任何 事情 之 前 ， 她 必须 说 服 拉 维 借 她 钥匙 。 但 拉 维 
可 以 拒绝 ， 或 者 更 糟糕 ， 假 闭合 作 却 借 给 弗 朗 索 瓦 丝 一 把 不 同 的 钥 是 
一 一 一 把 打 不 开 拉 维 锁 的 钥 是 。 然 后 ， 当 弗 明 索 拟 丝 打 不 开锁 箱 时 ， 
拉 维 就 能 说 : “看 ， 这 不 是 我 的 挂 锁 ， 伪 造 者 可 能 制作 了 一 份 文 件 ， 
并 在 我 不 知情 的 情况 下 把 它 放 入 锁 箱 中 。” 


拉 维 承诺 向 弗 朗 索 瓦 丝 支 
付 100 美元 





为 运用 实物 挂 锁 把 戏 制作 一 个 可 验证 签名 ， 拉 维 将 一 份 文件 拷贝 放 在 锁 箱 内 ， 并 用 
一 把 他 的 挂 锁 锁 上 。 


为 防止 拉 维 使 用 这 种 欺骗 方法 ， 我 们 仍 需 要 依 徘 一 个 受信 第 三 
方 ， 如 银行 。 和 前 文 的 纸 质 签名 银行 相反 ， 新 银行 会 存储 钥 是 。 因 
此 ， 参 与 者 不 是 给 银行 一 份 签名 ， 而 是 给 银行 一 把 能 打开 目 己 挂 锁 的 
实物 钥 是 。 下 图 显示 了 实物 钥匙 银行 。 








这 个 银行 是 这 一 谜 题 的 最 后 部 件 ， 完 整 了 实物 挂 锁 把 戏 的 解释 。 
如 果 弗 明 索 瓦 丝 需要 证 明 拉 维 写 了 穴 条 ， 她 只 要 和 一 些 目击 证 人 把 锁 


箱 珊 到 银行 ， 在 银行 用 拉 维 的 钥 是 打开 箱子 即 可 。 挂 锁 能 打开 就 证 明 
只 有 拉 维 能 对 箱 中 内 容 负责 ， 而 箱 中 正好 是 那 份 弗 明 索 瓦 丝 能 试图 验 
证 的 文件 。 


由 用 乘法 挂 锁 签名 


结果 证 明 ， 我 们 创建 的 钥匙 一 挂 锁 架构 正 是 数字 签名 所 需 的 方 
法 。 不 过 ， 很 明显 ， 我 们 不 能 在 必须 进行 电子 转换 的 签名 上 使 用 实物 
挂 锁 和 实物 钥匙 。 因 此 ， 下 一 步 驶 是 用 类 似 的 能 数字 化 的 数学 对 象 取 
代 挂 锁 和 钥匙 。 有 具体 来 说 ， 挂 锁 和 钥匙 将 用 数字 代表 ， 上 锁 或 开锁 动 
作 将 由 钟 算 乘法 (multiplication in clock arithnetic) 代表 。 如 
果 你 对 钟 算 不 是 很 熟悉 ， 请 查看 第 四 章 的 解释 。 
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实物 钥匙 银行 有 很 多 钥匙 ， 用 于 开启 对 应 的 挂 锁 。 注 意 每 把 钥匙 都 是 不 同 的 。 


为 得 到 不 能 伪造 的 数字 签名 ， 计 算 机 使 用 的 钟 大 小 非常 大 一 一 钟 
大 小 长 度 基 本 在 数 十 或 数 百 位 数 。 不 过 ， 在 接 下 来 的 描述 中 ， 我 们 将 
使 用 的 钟 大 小 会 非常 小， 基本 不 会 在 现实 中 运用 ， 以 确保 计算 能 简单 
进行 。 





这 一 部 分 的 所 有 例子 都 使 用 11 作 为 钟 大 小 。 因 为 我 们 会 多 次 用 这 
个 钟 大 小 将 数字 乘 起 来 。 我 在 下 面 给 出 了 一 张 表 ， 列 出 了 将 小 于 11 的 
数 相 乘 得 到 的 所 有 值 。 比 如 ， 让 我 们 来 手动 计算 7X5， 不 用 那 张 表 。 
我 们 先 用 普通 算术 计算 答案 : 7 X 5 = 35。 然 后 ， 我 们 保留 用 结果 除 
以 11 后 的 余数 。35 除 11 得 3 〈 即 33) ， 余 2。 因 此 ， 最 终结 果 是 2。 从 表 
上 看 ， 第 7 行 第 5 列 的 项 的 确 是 2。 【你 也 能 用 第 7 列 第 5 行 一 一 顺序 并 不 
重要 ， 你 可 以 自行 查证 。) 你 可 以 自行 尝试 另 一 对 乘法 例子 ， 以 确保 
自己 理解 。 











在 继续 之 前 ， 我 们 需要 略微 变化 一 下 我 们 尝试 要 解决 的 问题 。 在 
之 前 ， 我 们 一 直 在 寻找 让 拉 维 “ 签 普 ”一 条 给 弗 妆 索 瓦 丝 的 消息 〈 实 
际 上 是 一 张 欠 条 ) 的 方法 。 这 条 消 姑 用 日 常 英 语 写 束 。 但 从 现在 开 
始 ， 只 和 数字 打交道 要 方便 得 多 。 因 此 ， 我 们 必须 承认 ， 计 算 机 将 消 
恩 翻 译 成 一 个 数字 字符 串 让 拉 维 签署 很 容易 。 之 后 ， 如 果 有 人 需要 验 
证 拉 维 对 这 个 数字 字符 串 的 签名 时 ， 计 算 机 逆转 翻译 并 把 数字 转化 成 
英语 也 很 简单 。 在 讨论 校 验 和 及 更 短 符 写 把 戏 时 ， 我 们 遇 到 了 同样 的 
问题 。 如 果 你 愿意 更 细致 地 理解 这 一 问题 ， 请 回顾 更 短 符号 把 戏 的 讨 
论 一 一 这 张 图 给 出 了 一 个 在 字母 和 数字 之 间 翻 译 的 简单 、 详 尽 的 例 
可 二 
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钟 大 小 为 11 的 乘法 表 。 


因此 ， 拉 维 不 会 签署 一 条 用 英语 写成 的 消息 ， 而 是 必须 签署 一 个 
数字 字符 串 ， 如 “494138167543……83271696129149”。 不 过 ， 为 简 
单 起 见 ， 我 们 一 开始 会 假设 签署 的 消息 非常 之 短 : 事实 上 ， 拉 维 的 消 
恩 将 由 “8” 或 “5” 这 样 的 单个 数字 组 成 。 不 要 担心 : 我 们 最 终 将 学 
会 签署 长 度 更 合乎 情理 的 消息 的 方法 。 至 于 现在 ， 最 好 还 是 坚持 用 单 
个 数字 消息 。 


做 好 了 这 些 准 备 之 后 ， 我 们 束 准 备 好 理解 “乘法 挂 锁 把 戏 ” 的 核 
心 了 。 和 实物 挂 锁 把 戏 一 样 ， 拉 维 会 需要 一 把 挂 锁 和 一 把 打开 挂 锁 的 











钥匙 。 获 得 挂 锁 非常 容易 ， 拉 维 首先 选择 一 个 钟 大 小 ， 然 后 选择 比 钟 
大 小 小 的 任意 数 作为 数字 “ 挂 锁 ”。 实际 上 ， 一 些 数 比 其 他 数 效果 
更 好 ， 但 谈 这 些 细节 会 离 题 太 远 。) 为 让 例子 具体 化 ， 假 设 拉 维 选择 
11 作 为 钟 大 小 ， 选 择 6 作 为 挂 锁 。 





拉 维 承诺 向 弗 朗 索 瓦 丝 
支付 100 美 元 
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11 乘 6， 钟 大 小 为 11 


如 何 制作 一 个 数字 签名 ， 用 一 把 “ 挂 锁 ”“ 锁 住 ” 一 条 数字 消息 。 图 中 最 上 面 一 行 
显示 了 如 何 用 一 把 实物 挂 锁 在 一 个 箱子 中 锁 住 一 条 消息 。 图 中 最 下 面 一 行 显示 了 类 
似 的 数学 操作 ， 里 面 的 消息 是 个 数字 (5) ， 挂 锁 是 另 一 个 数字 (6) ， 上 锁 过 程 是 
已 知 钟 大 小 的 乘法 。 最 终结 果 (8) 就 是 消息 的 数字 签名 。 


现在 ， 拉 维 如 何 用 挂 锁 把 消 轧 “ 锁 ” 入 锁 箱 呢 ? 听 起 来 也 许 很 奇 
怪 ， 拉 维 将 用 乘法 做 到 这 一 点 : 拉 维 的 “上 锁 ” 消 息 将 由 挂 锁 和 消息 
相 乘 〈 钟 大 小 为 11) 。 记 住 ， 我 们 现在 在 处 理 一 条 由 单个 数字 组 成 的 
消息 。 因 此 ， 假 设 拉 维 的 消息 是 “5”。 那 么 他 的 “上 锁 ” 消 息 会 是 6 
X 5, 通过 钟 算得 到 结果 为 8。〔 你 可 以 用 前 页 的 乘法 表 进 行 双重 核 
对 ) 这 一 过 程 在 上 图 中 得 到 了 总 结 。 最 终结 果 “8” 就 是 拉 维 给 原始 消 
恩 的 数字 签名 。 


拉 维 承诺 向 弗 朗 索 
瓦 丝 支付 100 美 元 
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2 11 乘 6， 钟 大 小 为 11 11 乘 2， 钟 大 小 为 1 2 


如 何 使 用 数字 挂 锁 和 对 应 数字 钥匙 “上 锁 ” 并 在 随后 “解锁 ”一 条 消息 。 图 中 最 上 
面 一 行 显 示 了 实物 版 上 锁 和 解锁 。 图 中 最 下 面 三 行 显 示 了 使 用 乘法 给 消息 进行 数字 
上 锁 和 解锁 的 例子 。 注 意 ， 上 锁 过 程 得 到 了 一 个 数字 签名 ， 而 解锁 过 程 则 得 到 了 一 
条 消息 。 如 果 解 锁 消 息 与 原始 消息 匹配 ， 数 字 签 名 就 得 到 了 验证 ， 原 始 消息 为 真 。 


当然 ， 如 果 我 们 随后 不 能 运用 茶 种 数学 “钥匙 ” 解 开 消 轧 ， 这 种 
数学 “ 挂 锁 ”也 会 坚 无 用 处 。 竺 运 的 是 ， 有 一 种 解锁 消 恩 的 简单 方 
法 。 这 种 方法 是 再 次 使 用 乘法 〈 和 之 前 一 样 应 用 钟 大 小 ) ， 但 这 次 我 
们 会 乘 以 一 个 不 同 的 数 一 一 这 个 数字 经 过 特别 选取 ， 能 解 开 之 前 选取 
的 挂 锁 数 字 。 


让 我 们 继续 使 用 这 个 具体 例子 ， 拉 维 仍然 用 11 作 为 钟 大 小 ， 用 6 作 
为 挂 锁 数 字 。 结 果 显 示 ， 其 对 应 的 钥匙 是 2。 我 们 怎么 知道 ? 稍 后 再 回 
答 这 个 重要 问题 。 现 在 ， 让 我 们 继续 进行 更 容易 的 任务 ， 在 别人 告诉 
我 们 钥匙 的 数值 时 验证 钥匙 奏效 。 之 前 提 到 过 ， 我 们 通过 将 上 锁 消息 
和 钥 古 相 乘 就 能 解 开 上 锁 消 妃 。 我 们 已 经 在 上 图 中 见 过 ， 当 拉 维 将 消 
恩 5 用 挂 锁 6 锁 上 时 ， 他 得 到 了 上 锁 消 妃 《〈 或 数字 签名 ) 8。 要 解锁 上 锁 
消 轧 ， 我 们 将 8 用 钟 算 乘 以 钥匙 2， 得 到 结果 5。 就 像 魔术 一 样 ， 我 们 得 











到 了 原始 消息 5! 整个 过 程 如 上 图 所 示 ， 你 还 能 看 到 其 他 两 个 例子 ， 消 
息 “3” 被 锁 上 后 变 成 “7”， 用 钥匙 界 开始 重新 变 成 “3”。 类 似 的 ， 
“2” 被 锁 上 后 变 成 “1”， 但 铀 是 将 其 转化 回 “2”。 


上 图 还 解释 了 该 如 何 验证 数字 签名 。 你 只 需 用 签 普 者 的 乘法 钥匙 
解锁 签名 即 可 。 如 宁 解 锁 消 息 和 原始 消息 匹配 ， 签 名 就 是 真实 的 。 合 
则 ， 签 名 就 肯定 是 伪造 的 。 这 一 验证 过 程 在 下 页 图 中 进行 了 更 细致 的 
展示 。 在 这 张 表 中 ， 我 们 继续 使 用 11 作 为 钟 大 小 ， 但 为 显示 我 们 目前 
使 用 的 数字 挂 锁 和 钥匙 没有 特殊 之 处 ， 我 们 在 这 里 使 用 了 多 个 不 同 的 
值 。 特 别 是 ， 挂 锁 值 为 9， 而 相应 钥匙 的 值 为 5。 表 中 第 一 项 的 消 恩 是 
“4”， 签 名 是 “3”。 签 名 解 开 后 结果 为 “4”， 与 原 消息 匹配 ， 因 此 
签名 为 本 人 所 写 。 表 中 第 二 行列 举 了 一 个 相似 的 例 了 于， 消 妃 为 “8”， 
签名 为 “6”。 但 表 的 最 后 一 行 显示 了 签名 系 伪造 时 的 情况 。 表 中 第 四 
项 的 消息 还 是 “8”， 但 签名 却 是 “7”。 这 个 签名 解锁 后 是 “2”， 与 
原 消 旦 不 匹配 。 因 此 ， 签 名 系 伪造 。 














数字 签名 (对 
于 真 签名 ,让 
消息 和 挂 锁 值 
9 相 乘 。 对 于 
假 签名 ， 选 择 
一 个 随机 


解锁 等 名 (要 
解锁 签名 ， 和 


让 息 ? J、 大 造 ? 
钥匙 值 5 相 与 消息 匹配 系 伪造 


数 。) 


如 何 侦 测 一 个 伪造 的 数字 签名 锁 前 两 个 答 
名 为 真 ， 但 第 三 个 签名 系 伪造 。 





如 果 你 回想 实物 钥 是 和 挂 锁 的 例子 ， 你 应 该 会 记得 挂 锁 有 防止 其 
他 人 使 用 的 生物 传 感 占 一 一 否则 伪造 者 束 能 用 拉 维 的 挂 锁 将 任意 消 居 


所 在 箱子 中 ， 进 而 伪造 这 条 消息 的 签名 。 同 样 的 道理 也 适用 于 数字 挂 
锁 。 拉 维 必须 保持 他 的 挂 锁 号 不 为 人 知 。 每 次 他 签署 一 条 消 轧 ， 拉 维 
都 要 同时 展示 消 妃 和 签名 ， 但 并 非 用 于 制作 签名 的 挂 锁 数 。 


拉 维 选择 的 钟 大 小 和 数字 钥匙 呢 ? 这些 也 必须 保密 吗 ? 不 是 。 拉 
维 可 以 公开 宣布 自己 选择 的 钟 大 小 和 钥 是 值 ， 有 可 能 会 通过 网 站 发 布 
它们 ， 而 无 须 为 验证 签名 的 机 制 妥协 。 如 果 拉 维 真 的 发 布 了 自己 的 钟 
大 小 和 钥匙 值 ， 任 何人 都 能 获取 这 些 数 字 并 验证 他 的 签名 。 乍 一 看 ， 
这 种 方法 似乎 非常 方便 一 一 但 还 是 有 些 重要 的 细微 之 处 需要 强调 。 











数字 钥匙 银行 
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数字 钥 是 银行。 该 银行 的 作用 并 非 为 数字 钥匙 和 钟 大 小 保密 。 相 反 ， 银 行 是 获取 与 
任何 个 人 相关 的 真正 钥匙 和 钟 大 小 的 受信 权威 。 银 行 可 以 自由 地 向 任何 有 要 求 的 人 
展示 这 些 信息 。 


由 数字 钥匙 银行 


比如 ， 这 个 方法 消除 了 对 受信 和 银行 的 需求 吗 ? 纸 质 签 名 技术 和 实物 
挂 锁 一 钥 是 技术 都 需要 受信 银行。 并 非 如 此 : 仍然 需要 一 个 像 银行 这 
样 的 受信 第 三 方 。 没 有 受信 第 三 方 ， 拉 维 就 能 分 发 一 个 假 钥 是 值 ， 让 
他 的 签名 失效 。 更 糟 的 是 ， 拉 维 的 政和 人 们 可 以 制造 一 个 新 的 数字 挂 锁 
和 相对 应 的 数字 钥匙 ， 并 在 一 个 网 站 上 宣称 这 就 是 拉 维 的 钥匙 ， 然 后 
用 他 们 新 伪造 的 数字 挂 锁 签 获 任何 他 们 想 要 的 消息 。 任 何 相 信 这 些 新 
钥匙 属于 拉 维 的 人 都 会 相信 ， 政 人 的 消息 是 拉 维 俭 普 的 消 轧 。 因 此 ， 
银行 的 角色 并 不 是 为 拉 维 的 钥 是 和 钟 大 小 保密 。 相 反 ， 银 行 是 一 个 拉 
维 的 数字 钥 是 和 钟 大 小 值 的 受信 权威 。 上 图 展示 了 这 一 情况 。 





总 结 这 一 讨论 的 一 种 有 用 方法 是 : 数字 挂 锁 是 私有 的 ， 而 数字 钥 
是 和 钟 大 小 则 是 公开 的 。 要 承认 的 是 ， 让 钥匙 “公开 ”有 点 违背 常 
识 ， 因 为 在 我 们 的 日 第 生活 中 ， 我 们 习惯 于 非常 小 心地 保护 我 们 的 实 
物 钥 岂 。 为 漆 清 钥匙 这 一 不 同 寻 常 的 用 途 ， 回 想 早 先 摘 述 的 实物 挂 锁 
把 戏 。 在 那个 例子 里 ， 银 行 保 有 一 把 拉 维 的 钥匙 ， 并 且 很 乐意 将 之 借 
给 任何 想 要 验证 拉 维 签名 的 人 。 因 此 ， 在 茶 些 意义 上 上， 实物 钥 是 就 是 
“公开 的 ”。 同 样 的 道理 也 适用 于 乘法 钥匙 。 





现在 是 强调 一 个 重要 现实 问题 的 好 时 机 : 假如 我 们 想 要 签署 不 止 
一 位 数 的 消息 呢 ? 这 一 问题 有 多 种 答案 。 第 一 个 解决 方案 是 使 用 一 个 
很 大 的 钟 大 小 : 比如 ， 如 果 我 们 使 用 一 个 100 位 数 的 钟 大 小 ， 那 么 通过 
相同 的 方法 ， 我 们 能 用 100 位 数 的 签名 签署 100 位 数 的 消息 。 对 于 长 于 
100 位 数 的 消息 ， 我 们 可 以 将 消息 分 成 100 位 数 的 块 ， 并 单独 签署 每 个 
块 。 但 计算 机 科学 家 们 有 一 种 更 好 的 方法 来 做 到 这 一 点 。 实 际 情况 
是 ， 出 于 签署 的 目的 ， 通 过 应 用 一 种 名 为 加 密 哈 希 函 数 的 转化 方法 ， 
长 消息 能 缩减 为 单个 块 〈 比 如 100 位 数 ) 。 我 们 已 经 在 第 五 章 谈 到 过 加 
密 哈 希 函 数 ， 它 们 在 第 五 章 被 用 作 校 验 和 ， 以 确保 大 消息 (如 一 个 软 








件 包 ) 内 容 正确 。 这 里 的 想法 也 很 类 似 : 一 条 长 消 恩 在 签 普 前 被 缩减 
为 小 得 多 的 块 。 这 意味 痢 极 大 的 “消息 ”一 一 如 软件 包 一 一 能 高 效 俭 
普 。 为 简单 起 见 ， 我 们 将 在 余下 的 章节 中 忽略 长 消 轧 问题 。 


另外 一 个 重要 问题 是 : 这 些 数字 挂 锁 和 钥匙 最 初 来 自 哪里 ? 之 前 
曾 提 到 ， 参 与 者 们 基本 上 能 为 挂 锁 选择 任意 值 。 不 幸 的 是 ， 隐 藏 在 单 
词 “essentially”【〔 基 本 上 ) 背后 的 细节 1 需要 对 数字 理论 有 相当 于 
本 科 课 程 的 认识 。 但 假设 你 没有 机 会 学 习 数字 理论 ， 让 我 来 讲述 下 列 
难题 : 如 果 钟 大 小 是 个 素数 ， 那 么 任何 钟 大 小 之 外 的 正 值 都 可 以 作为 
挂 锁 。 和 否则， 情况 就 要 复杂 得 多 了 。 素 数 没 有 除 1 和 自身 之 外 的 商 。 本 
草 中 使 用 的 钟 大 小 11 束 是 素数 。 


因此 ， 选 择 挂 锁 很 简单 ， 特 别 是 在 钟 大 小 为 系数 的 情况 下 。 但 一 
旦 选 定 挂 锁 ， 我 们 还 需要 应 付 解 开 选 中 挂 锁 的 对 应 数字 钥 是 。 这 是 个 
很 有 趣 一 一 也 非常 主 老 一 一 的 数学 问题 。 实 际 上 ， 这 个 问题 的 解决 方 
案 流传 了 数 个 世纪 ， 而 其 中 心思 想 甚至 要 更 为 古老 : 这 一 广为人知 的 
技巧 名 为 欧 几 里 得 算法 ， 由 希腊 数学 家 欧 几 里 得 于 2 000 多 年 前 发 明 。 
不 过 ， 我 们 不 必 在 此 退 寻 钥匙 生成 的 细节 ， 只 需要 知道 ， 给 出 一 个 挂 
锁 值 ， 计 算 机 就 能 通过 一 种 名 为 欧 儿 里 得 算法 的 知名 数学 技巧 得 出 相 
对 应 的 钥匙 值 。 




















如 果 你 仍 对 这 一 解释 不 满意 ， 也 许 在 我 各 后 揭示 戏剧 性 转折 后 ， 
你 会 变 得 品 兴 。 整 个 挂 锁 和 钥匙 的 “乘法 ”方法 有 个 根本 缺陷 ， 必 须 
被 抛弃 。 在 下 一 部 分 ， 我 们 将 用 一 种 不 同 的 方法 处 理 挂 锁 和 钥匙 ， 一 
种 实际 上 已 经 在 现实 中 运用 的 方法 。 那 么 ， 为 什么 我 还 要 解释 有 缺陷 
的 乘法 系统 呢 ? 主要 原因 是 ， 所 有 人 都 熟悉 乘法 ， 这 也 意味 着 不 需要 
一 次 性 接受 大 量 新 知识 就 能 解释 系统 。 另 外 一 个 原因 是 ， 在 有 缺陷 的 
乘法 方法 和 我 们 将 在 下 面 考虑 的 正确 方法 之 间 ， 存 在 一 些 迷 人 的 联 
系 。 











但 在 继续 往 下 讲 之 前 ， 让 我 们 答 试 理解 乘法 方法 的 缺陷 。 之 前 说 
过 ， 挂 锁 值 是 私有 的 《或 秘密 的 ) ， 而 钥匙 值 则 是 公开 的 。 刚 刚 也 讨 
论 过 ， 签 名 机 制 的 参与 者 可 以 自由 选择 钟 大 小 (公开 〉 和 挂 锁 值 〈 仍 
旧 保 密 ) ， 然 后 通过 计算 机 生成 对 应 钥 是 值 〈 在 这 个 乘法 钥 是 的 特殊 
例子 中 ， 我 们 会 使 用 欧 几 里 得 算法 ) 。 钥 匙 会 存储 在 一 个 受信 和 银行 
中 ， 而 银行 会 向 任何 请 求 的 人 展示 钥匙 值 。 乘 法 方法 的 问题 在 于 ， 用 
于 从 挂 锁 生成 钥 是 的 同样 把 戏 一 一 基本 上 是 指 欧 几 里 得 算法 一 一 能 非 
常 完美 地 逆向 运行 : 同样 的 技术 能 让 计算 机 生成 已 有 钥 是 值 对 应 的 挂 
锁 值 ! 我 们 立马 就 知道 了 抛弃 整个 数字 签名 机 制 的 原因 。 因 为 钥匙 值 
是 公开 的 ， 理 应 保密 的 挂 锁 值 也 能 被 任何 人 计算 出 来 。 而 一 旦 你 知道 
了 茶 人 的 挂 锁 值 ， 你 就 能 伪造 那个 人 的 数字 签名 。 


用 指数 挂 锁 签名 


在 这 一 部 分 ， 我 们 将 升级 有 缺陷 的 乘法 系统 ， 代 之 以 一 种 在 现实 
中 运用 的 著名 数字 签名 机 制 RSA。 新 系统 将 使 用 一 种 不 知名 的 操作 求 贤 
Cexponentiation) 取代 乘法 操作 。 事 实 上 ， 我 们 经 历 了 和 第 四 章 理 
解 公 钥 加 密 相 同 的 求 窜 步 骤 : 我 们 先 弄 清 一 个 使 用 乘法 的 简单 的 缺陷 
系统 ， 然 后 研究 使 用 求 蝴 的 真实 系统 。 





因此 ， 如 果 你 对 5 和 34 等 曙 符 号 不 熟悉 ， 这 是 个 重 温 “ 现 实生 活 
中 的 颜料 混合 把 戏 ” 内 容 的 好 时 机 。 但 是 要 提醒 一 句 ，34 (“3 的 4 次 
方 ”) 意味 着 3X3X3X3。 另 外 ， 我 们 需要 几 个 技术 术语 。 在 如 34 这 
样 的 表述 中 ，4 被 称 作 指数 (exponent ) 或 过 (power) ， 而 3 则 被 称 为 
底 (base ) 。 在 一 个 底 上 应 用 指数 的 过 程 被 称 为 “ 目 乘 霸 次 ” 
( raising to a power ) ， 更 正式 的 说 法 是 求 雁 
(exponentiation) 。 和 第 四 章 一 样 ， 我 们 将 结合 求 梭 与 钟 算 。 本 章 
这 一 部 分 的 所 有 例子 都 用 22 作 为 钟 大 小 。 我 们 唯一 需要 的 指数 是 3 和 








7， 因 此 在 下 面 提供 了 一 张 表 ， 显 示 n3 和 mn:' 的 值 ，n 为 1 到 20 的 整数 〈 钟 
大 小 为 22) 。 


n nn 17 n n3 了 7 
1 1 上 3 了 上 上 1 
2 8 18 lz 2 12 
3 9 9 1 污 过 息 
4 20 16 14 16 20 
二 3 二 与 9 时 
6 18 8 16 4 14 
2 3 17 17 7 19 
8 6 2 18 2 6 
9 3 13 19 17 13 
1 J109. 1Q 20 14 4 


钟 大 小 为 22 时 n 的 三 次 方 和 七 次 方 的 值 。 


现在 让 我 们 核实 表 中 的 两 个 项 ， 确 保 它 们 有 意义 。 看 一 下 对 应 n=4 
的 行 。 如 果 我 们 不 使 用 钟 算 ， 结 果 就 是 4 =4X4X4 = 64。 但 应 用 钟 
大 小 22 后 ，64 中 减 去 2 个 22 (44) 余 20。 这 是 n3 栏 那 一 项 为 20 的 由 来 。 
类 似 的 ， 在 不 应 用 钟 算 的 情况 下 ， 你 能 算出 47 = 16384， 比 最 接近 的 
22 的 倍数 正好 大 16 (如 果 你 感 兴趣 ，22 x 744 = 16 368) 。 这 解释 


了 n' 栏 那 一 项 为 16 的 由 来 。 


现在 我 们 最 终 准 备 好 了 观察 实际 运作 中 的 数字 签名 。 系 统 运作 的 
方式 和 前 一 部 分 的 乘法 方法 一 样 ， 只 有 一 个 例外 :和 用 乘法 给 消息 上 








锁 及 解锁 不 同 的 是 ， 我 们 用 求 早 来 进行 这 些 操作 。 和 前 面 的 例子 一 
样 ， 拉 维 首先 选择 并 公开 钟 大 小 。 在 这 里 ， 拉 维 用 22 作 钟 大 小 。 然 后 
他 选择 一 个 秘密 挂 锁 值 ， 这 个 值 可 以 是 钟 大 小 之 外 的 任意 数 〈 受 制 于 
一 些 细 节 ， 我 们 将 在 稍 后 进行 简短 讨论 ) 。 在 这 个 例子 中 ， 拉 维 选 择 3 
作为 挂 锁 值 。 然 后 ， 他 用 计算 机 算出 挂 锁 和 钟 大 小 对 应 的 钥匙 值 。 我 
们 稍 后 会 多 了 解 一 些 与 此 有 关 的 细节 。 但 唯一 重要 的 事实 是 ， 计 算 机 
能 使 用 众所周知 的 数学 技术 ， 轻 易 根据 挂 锁 和 钟 大 小 计算 出 钥 古 。 在 





这 个 例子 中 ， 结 果 证 明 钥 匙 值 ? 对 应 先前 选取 的 挂 锁 值 3。 


拉 维 承诺 癌 弗 朗 索 
瓦 丝 支 付 100 美元 





一 一 一 一 一 一 一 一 > 一 一 一 一 一 一 一 一 2 

4 22 取 3 次 方 竹 ， 20 22 取 7 次 方 竹 ， 4 
钟 大 小 为 22 钟 大 小 为 22 
re 一 一 一 一 一 一 和 > 

8 22 取 3 次 方 罕 ， 6 22 取 7 次 方 特 ， 8 
钟 大 小 为 22 钟 大 小 为 22 
13 
22 取 3 次 方 宪 ， 22 取 7 次 方 竹 ， 
钟 大 小 为 22 钟 大 小 为 22 


用 求 轿 给 消息 上 锁 和 解锁 。 


上 图 给 出 了 一 些 拉 维 如何 俭 普 消 息 ， 以 及 其 他 人 如 何 解锁 并 核实 
签名 的 具体 例子 。 如 果 消 息 是 “4”， 签 名 是 “20”: 我 们 通过 以 挂 锁 
值 为 容 ， 让 消息 求 此 窜 得 出 结果 。 因 此 ， 我 们 要 计算 人 ， 在 应 用 钟 大 
小 之 后 得 20。【 不 要 起 记 ， 你 可 以 用 上 页 的 表 轻 易 地 核实 这 些 计 
算 。) 现在 ， 当 弗 朗 索 瓦 丝 想 要 验证 拉 维 的 数字 签名 “20” 时 ， 她 先 
去 银行 得 到 拉 维 钟 大 小 和 钥匙 的 权威 值 。〔 银 行 和 之 前 例子 中 的 一 


样 ， 除 了 数字 不 同 外 ) 然后 弗 朗 索 瓦 丝 用 签名 求 钥匙 值 的 军 ， 再 应 用 
钟 大 小 :计算 结果 为 20” = 4， 你 可 以 和 上 页 图 中 的 结果 对 照 。 如 果 结 
果 和 原 消息 匹配 《在 这 个 例子 中 也 的 确 匹配 ) ， 签 名 为 真 。 上 图 显示 
了 消息 “8” 和 “7” 的 相似 计算 。 





下 表 再 次 展示 了 这 一 过 程 ， 这 次 强调 了 签名 的 验证 过 程 。 图 中 前 
两 个 例子 和 上 一 张 图 中 的 一 样 ( 分 别 是 消 忠 “4” 和 “8”) ， 都 是 真 
签名 。 第 三 个 例子 的 消息 是 “8”， 签 名 是 “9”。 在 应 用 钟 大 小 和 铀 
古 值 解锁 后 ，97 的 结果 是 15， 和 原 消 息 不 匹配 。 因 此 ， 第 三 条 消 筷 系 
伪造 。 








,| 数字 签名 解锁 签名 
(对 于 真 签名 ， 让 消息 求 挂 锁 值 3 的 早 。 | (要 解锁 签名 ， 求 
| 对 于 假 签名 ， 选 择 一 个 随机 数 。) 钥匙 值 7 的 恬 。) 





如 何 用 求 暴 侦 测 一 个 伪造 的 数字 签名 。 这 些 例子 使 用 的 挂 锁 值 为 3， 钥 匙 值 为 7， 钟 
大 小 为 22。 前 两 个 签名 为 真 ， 但 第 三 个 签名 系 伪造 。 


如 前 所 述 ， 这 种 求 挂 锁 值 的 医 和 求 钥 匙 值 的 需 以 RSA 数 字 签名 机 制 
而 闻名 。 这 个 名 字 由 于 20 世 纪 70 年 代 首 次 发 表 该 系统 的 三 位 发 明 者 姓 
的 首 字母 组 合 而 成 : 罗 纳 德 。 李维斯 特 (Ronald Rivest) 、 阿 迪 。 沙 
米尔 (Adi Shamir ) 和 雷 奥 纳 德 。 阿 德尔 曼 (Leonard Adlemen ) 。 
RSA 听 起 来 可 能 很 耳 部 ， 因 为 我 们 已 经 在 讨论 公 钥 加 密 的 第 四 章 遇 到 过 
这 个 首 字 母 缩 略 词 。 事 实 上 ，RSA 既 是 一 种 公 钥 加 密 机 制 ， 又 是 一 种 数 
字 签 名 机 制 一 一 这 绝 非 侦 然 ， 这 两 种 算法 之 间 有 着 很 深 的 理论 关系 。 
在 本 章 ， 我 们 只 探索 了 RSA 的 数字 签名 面 ， 但 你 可 能 已 经 注意 到 了 一 些 
和 第 四 章 思 想 惊 人 的 相似 之 处 。 





如 何在 RSA 系 统 中 选择 钟 大 小 、 挂 锁 和 钥匙 的 细节 非常 吸引 人 ， 但 
在 理解 大 致 方法 上 却 不 需要 这 些 细节 。 最 重要 的 是 ， 在 这 一 系统 中 ， 
一 旦 选 定 挂 锁 值 ， 参 与 者 就 能 轻易 计算 出 合适 的 钥 是 值 。 但 其 他 任何 
人 想 要 逆转 这 一 过 程 都 不 可 能 : 如 果 你 知道 示人 正在 用 的 钥 是 和 钟 大 
小 ， 你 也 不 能 算出 对 应 的 挂 锁 值 。 这 弥补 了 时 前 解释 的 乘法 系统 的 缺 


陷 。 





至 少 计算 机 科学 家 认为 RSA 很 安全 ， 但 没 人 能 肯定 。RSA 是 否 真 的 
安全 ?这 个 问题 是 整个 计算 机 科学 中 最 迷人 、 最 令 人 烦恼 的 问题 之 
一 。 要 提 一 下 ， 这 个 问题 同时 取决 于 一 个 未 解决 的 古老 数学 问题 ， 以 
及 一 个 位 于 物理 学 和 计算 机 科学 研究 交叉 地 带 的 最 新 热门 主题 。 数 学 
问题 就 是 知名 的 整数 分 解 (integer factorization) ; 而 热门 研究 主 
题 就 是 量子 计算 〈quantum computing) 。 我 们 将 逐一 研究 RSA 安 全 性 
的 这 两 个 方面 ， 但 在 这 么 做 之 前 ， 我 们 需要 更 好 地 了 解 一 下 ， 像 RSA 这 
样 的 数字 签名 机 制 “ 安 全 ”的 真正 含义 是 什么 。 


| RSA 的 安全 性 


所 有 数字 签名 机 制 的 安全 性 都 要 归结 到 一 个 问题 : “敌人 能 伪造 
我 的 签名 吗 ? ”对 于 RSA 而 言 ， 这 个 问题 可 以 转化 为 “ 收 人 能 根据 我 的 
公开 钟 大 小 和 钥匙 值 计 算出 我 的 私人 挂 锁 值 吗 ? ”“ 是 的 ! ”这 一 问 
题 的 简单 答案 也 许 会 让 你 感到 泪 走 。 事 实 上 ， 你 已 经 知道 : 通过 试 错 
总 有 可 能 算出 某 人 的 挂 锁 值 。 毕 竞 ， 我 们 有 消息 、 钟 大 小 和 数字 签 
名 。 我 们 知道 挂 锁 值 要 小 于 钟 大 小 ， 因 此 我 们 可 以 简单 地 逐一 符 试 所 
有 可 能 的 挂 锁 值 ， 直 到 找到 一 个 能 生成 正确 签名 的 挂 锁 值 。 这 就 是 一 
个 消息 求 每 个 尝试 挂 锁 值 的 时 的 问题 。 在 实际 中 ， 诀 罕 是 RSA 机 制 使 用 
绝对 大 的 钟 大 小 一 一 比如 数 干 位 数 长 。 这 样 ， 即 便 使 用 现存 最 快 的 超 
级 计算 机 ， 也 要 论 数 万 亿 年 才能 尝试 所 有 可 能 的 挂 锁 值 。 因 此 ， 我 们 
对 敌人 是 否 能 用 某 种 方法 计算 出 挂 锁 值 不 感 兴趣 。 相 反 ， 我 们 想 知 道 











政 人 是 否 能 足够 高 效 地 这 么 做 ， 从 而 造成 实际 威胁 。 如 果 政 人 的 最 佳 
攻击 方法 就 是 试 错 一 一 计算 机 科学 家 通 凋 称 之 为 暴力 破解 〈brute 
force) 一 一 我 们 可 以 一 直 都 选用 足够 大 的 数 作 为 钟 大 小 ， 从 而 让 攻击 
变 得 不 切实 际 。 必 一 方面 ， 如 果 敌 人 的 技术 效率 比 骏 力 破 解 快 很 多 ， 
我 们 就 可 能 有 了 麻烦 了 。 








比如 ， 资 回 乘法 挂 锁 和 钥 古 机 制 ， 我 们 知道 签署 人 可 以 选择 一 个 
挂 锁 值 ， 然 后 通过 使 用 欧 几 里 得 算法 计算 钥匙 值 。 但 缺陷 是 敌人 无 须 
依靠 暴力 破解 就 能 逆转 过 程 ， 结 果 证 明 ， 欧 几 里 得 算法 也 能 根据 钥匙 
值 计 算出 挂 锁 值 ， 而 这 一 算法 要 比 骏 力 破 解 高 效 得 多 。 这 也 是 乘法 方 
法 被 认为 不 安全 的 原因 。 


| RSA 和 因 式 分 解 的 联系 


我 之 前 承诺 过 ， 要 展示 RSA 的 安全 性 与 一 个 名 为 整数 分 解 的 古老 数 
学 问题 之 间 的 联系 。 为 理解 这 一 联系 ， 我 们 需要 多 知道 一 些 与 如 何 选 
择 RSA 钟 大 小 有 关 的 细节 。 


首先 ， 回 顾 一 下 素数 的 定义 : 素数 就 是 只 有 1 和 它 自身 两 个 因子 的 
数 。 比 如 ，31 是 素数 ， 因 为 只 有 1X31 才 能 得 到 31。 但 33 却 不 是 素数 ， 
国 为 9 又 付 。 








现在 ， 我 们 准备 好 研究 签署 人 一 一 如 老 朋 友 拉 维 一 一 生成 RSA 钟 大 
小 的 全 过 程 。 拉 维 做 的 第 一 件 事 是 选择 两 个 非常 大 的 素数 。 基 本 上 这 
些 素数 会 有 数 百 位 数 长 ， 但 和 之 前 一 样 ， 我 们 用 小 例子 代替 。 假 设 拉 
维 选择 了 素数 2 和 11， 然 后 将 两 数 相 乘 ， 得 到 钟 大 小 2X11=22。 钟 大 小 
会 和 拉 维 选取 的 钥匙 值 一 道 公 开 。 但 一 一 这 是 关键 时 刻 一 一 钟 大 小 的 
两 个 素数 因子 仍然 保密 ， 只 有 拉 维 知道 。RSA 之 后 的 数学 让 拉 维 有 方法 
使 用 这 两 个 素数 因子 根据 钥匙 值 算出 挂 锁 值 ， 反 之 亦 然 。 














这 一 方法 的 细节 在 下 图 中 得 到 了 描述 ， 但 它们 和 我 们 的 主要 目的 
无 基 。 我 们 需要 知道 的 就 是 ， 拉 维 的 敌人 不 能 使 用 公开 信息 〈 钟 大 小 
和 钥匙 值 ) 计算 出 他 的 保密 挂 锁 值 。 但 如 果 他 的 敌人 也 知道 钟 大 小 的 
两 个 系数 因子 ， 他 们 束 能 轻易 计算 出 保密 的 挂 锁 值 。 换 言 之 ， 如 果 拉 
维 的 政 人 能 将 钟 大 小 因 式 分 解 ， 他 们 束 能 伪造 拉 维 的 签名 。 当然 ， 
可 能 还 有 其 他 破解 RSA 的 方法 。 对 钟 大 小 进行 高 效 因 式 分 解 只 是 可 能 的 
er DA 





在 这 个 小 例子 中 ， 将 钟 大 小 因 式 分 解 〈 并 破解 数字 签名 机 制 ) 非 
常 容易 ;， 所 有 人 都 知道 22=2X11。 但 当 钟 大 小 有 数 百 位 或 数 干 位 数 长 
时 ， 找 出 因子 就 变 得 极其 困难 了 。 事 实 上 ， 尽 管 这 个 所 谓 的 “整数 分 
解 ”问题 被 研究 了 数 个 世纪 ， 还 没 人 找到 一 个 足够 高 效 的 通用 方法 解 
决 它 ， 并 对 标准 RSA 钟 大 小 造成 危害 。 


数学 史 中 充 满 了 未 解决 问题 ， 尽 管 这 些 迷 人 问题 缺乏 任何 实际 应 
用 ， 单 靠 其 类 学 特质 就 吸引 了 数学 家 进行 深入 研究 。 令 人 申 感 惊讶 的 
征 ， 许 多 这 类 迷人 但 显然 无 用 的 问题 后 来 都 有 了 很 大 的 实用 价值 一 一 
在 一 些 例 子 中 ， 这 一 价值 只 有 在 问题 被 研究 数 个 世纪 后 才 发 现 。 





| 碟 ! | 减 1 
1 x 10 = 10 


第 二 钟 大 
小 


拉 维 选择 两 个 素数 (2 和 11) 并 将 两 数 相 乘 得 到 钟 大 小 
(22) 。 我 们 将 其 称 为 “第 一 ” 钟 大 小 ， 原 因 很 快 即 会 说 明 。 接 
下 来 ， 拉 维 将 两 个 素数 各 减 1， 再 将 相 减 后 得 到 的 数 相 乘 。 这 就 得 
到 了 拉 维 “第 二 ” 钟 大 小 。 在 这 个 例子 中 ， 拉 维 再 将 原 素数 各 减 1 
后 分 别 得 到 1 和 10， 因 此 第 三 钟 大 小 为 1 X10=10。 


这 时 ， 我 们 遇 到 了 一 个 令 人 极其 愉快 的 联系 ， 这 一 联系 和 之 
前 描述 的 有 缺陷 的 乘法 挂 锁 钥 匙 系统 有 关 : 拉 维 根据 乘法 系统 选 
择 了 挂 锁 和 钥匙 ， 但 却 使 用 第 二 钟 大 小 而 非 第 一 钟 大 小 。 结 果 显 
示 ， 当 使 用 第 二 钟 大 小 10 时 ， 与 之 对 应 的 乘法 钥匙 为 7?。 我 们 能 很 
快 证 明 这 一 方式 奏效 :消息 “8” 乘 上 挂 锁 值 为 8gX3=24， 应 用 钟 
大 小 10 后 得 “4”。 用 钥匙 解锁 “4” 得 4X7=28， 应 用 钟 大 小 后 得 
“8” 一 一 和 原 消 息 一 样 。 

现在 拉 维 的 工作 完成 了 : 他 将 乘法 挂 锁 和 刚刚 选择 的 钥匙 直 
接 用 作 RSA 系 统 中 的 指数 挂 锁 和 钥匙 。 当 然 ， 它 们 被 当 作 指数 使 用 
时 会 选择 第 一 钟 大 小 22。 





生成 RSA 钟 、 挂 锁 和 钥匙 值 的 所 有 细节 。 


整数 分 解 这 一 问题 由 来 已 人 入 。 对 其 最 早 的 严肃 研究 似乎 是 在 17 世 
纪 ， 由 数学 家 费 马 (Fermat ) 和 梅森 (Mersenne ) 进行 。 欧 拉 
CEuler ) 和 高 斯 (Gauss) 一 一 两 位 数学 泰斗 一 一 也 在 接 下 来 的 世纪 
里 对 这 一 问题 做 出 了 贡献 ， 其 他 许多 人 也 贡献 了 目 己 的 力量 。 但 直到 
公 钥 加 密 于 20 世 纪 70 年 代 发 明 ， 分 解 大 数字 的 困难 才 成 为 一 个 实际 应 
用 的 关键 。 你 现在 应 该 知道 ， 任 何 发 明 一 种 高 效 分 解 大 数字 算法 的 人 
都 能 随意 伪造 数字 签名 。 


在 这 听 起 来 有 点 危 言 符 听 之 前 ， 我 要 澄清 一 点 ，20 世 纪 70 年 代 后 
发 明了 无 数 其 他 数字 签名 机 制 。 尽 管 每 种 机 制 都 依赖 于 一 些 基 本 数学 
难题 的 难 解 度 ， 但 不 同 的 机 制 依赖 不 同 的 数学 难题 。 因 此 ， 发 明 一 种 
高 效 的 分 解 因子 算法 只 会 破坏 类 RSA 机 制 |。 


另 一 方面 ， 计 算 机 科学 家 都 对 一 个 适用 于 所 有 这 些 系统 的 迷人 问 
题 感到 困扰 : 没有 一 种 机 制 被 证 明 是 安全 的 。 每 一 种 机 制 都 依赖 于 一 
些 很 复杂 、 解 题 时 间 很 长 的 数学 难题 。 而 在 每 个 难题 中 ， 理 论 学 家 叉 
不 能 证 明 没有 高 效 解 决 方案 存在 。 因 此 ， 尽 管 专家 们 认为 可 能 性 非常 
低 ， 但 原则 上 任何 时 候 任 何 一 种 加 密 或 数字 签名 机 制 都 可 能 被 攻破 。 


RSA 和 量子 计算 机 的 联系 


我 兄 现 了 揭露 RSA 和 一 个 古老 数学 问题 之 间 联 系 的 承 诡 ， 但 还 未 解 
释 RSA 与 量子 计算 这 一 热门 研究 主题 之 间 的 联系 。 要 探究 这 一 联系 ,我 
们 必须 首先 接受 下 列 基本 事实 : 在 量子 力学 中 ， 物 体 移动 由 概率 主导 
一 一 与 经 典 物理 学 的 决定 论 定律 (deterministic laws) 相反 。 
此 ， 假 如 你 用 易 受 量子 力学 影响 的 部 件 搭建 一 人 台 计 算 机 ， 它 所 计算 的 
值 会 由 概率 决定 ， 而 非 经 典 计 算 机 生成 的 由 0 和 1 组 成 的 绝对 确定 的 序 
列 。 看 待 这 一 情况 的 男 一 种 角度 是 ， 量 子 计算 机 会 同时 存储 多 个 不 同 




















的 值 : 不 同 的 值 有 不 同 的 概率 ， 但 在 你 强迫 计算 机 输出 一 个 最 终 答案 
前 ， 所 有 值 都 同时 存在 。 这 让 量子 计算 机 同时 计算 多 个 不 同 可 能 的 答 
案 成 为 可 能 。 对 于 一 些 特定 种 类 的 问题 ， 你 可 以 使 用 “暴力 破解 ” 方 
法 同时 尝试 所 有 可 能 的 解决 方案 ! 








这 确实 只 对 特定 种 类 的 问题 疼 效 ， 但 整数 分 解 恰巧 融 是 量子 计算 
机 在 执行 效率 上 比 经 典 计 算 机 快 得 多 的 任务 之 一 。 因 此 ， 如 果 你 能 搭 
建 一 台 能 处 理 数 和 干 位 数 数字 的 量子 计算 机 ， 你 就 能 像 先 前 解释 的 一 样 
伪造 RSA 签 名 : 因 式 分 解 公 开 钟 大 小 ， 使 用 因子 得 到 第 二 钟 大 小 ， 再 使 
用 第 二 钟 大 小 从 公开 钥匙 值 中 获得 私密 挂 锁 值 。 





在 我 于 2011 年 写 下 这 些 文字 时 ， 量 子 计算 的 理论 超前 实践 很 多 。 
研究 人 员 们 尝试 搭建 真正 的 量子 计算 机 ， 但 目前 为 止 由 量子 计算 机 执 
行 的 最 大 因 式 分 解 是 15=3 X 5 一 一 离 因 式 分 解数 千 位 数 长 的 RSA 钟 大 小 
还 相差 甚 远 ! 而 且 在 创造 更 大 的 量子 计算 机 前 ， 还 有 非常 具体 的 问题 
需要 解决 。 因 此 ， 没 人 知道 量子 计算 机 何 时 一 一 或 能 否 一 一 大 到 能 够 
一 次 性 破解 RSA 系 统 。 


用 实际 中 的 效 字符 名 


在 本 章 开 头 ， 我 们 了 解 到 如 你 我 的 终端 用 户 并 没有 太 多 数字 签名 
的 需求 。 一 些 计算 机 深度 用 户 的 确 会 对 电子 邮件 消息 等 东西 签名 ， 但 
对 于 绝 大 多 数 人 而 言 ， 数 字 签 名 的 主要 用 途 是 验证 下 载 后 的 内 容 。 最 
明显 的 例子 是 ， 当 你 下 载 一 份 新 软件 时 ， 如 果 软 件 有 签名 ， 计 算 机 就 
会 使 用 签名 者 的 公 钥 “ 解 开 ”签名 ， 并 将 结果 和 签名 者 的 “消息 ” 
一 一 也 就 是 软件 本 身 一 一 对 比 。[ 之 前 提 过 ， 在 实践 中 ， 软 件 
会 在 签名 前 被 缩减 成 一 条 小 得 多 的 名 为 安全 哈 布 
(secure hash) 的 消息 。] 如 果 解 开 的 签名 与 软件 匹配 ， 你 会 

















看 到 一 条 或 舞 人 的 消息 ,否则 ， 你 会 看 到 一 个 更 加 可 怕 的 警告 :这 两 
个 例子 都 在 本 章 开 头 的 图 中 有 显示 。 


我 一 直 都 强调 ， 本 章 所 有 机 制 都 需要 某 种 受信 “银行 ”存储 签名 
者 的 公 钥 和 钟 大 小 。 和 驻 运 的 是 ， 你 可 能 也 注意 到 了 ， 每 次 下 完 一 些 软 
件 ， 你 都 无 须 去 一 家 真正 的 银行 。 在 现实 生活 中 ， 存 储 公 钼 的 受信 组 
织 被 称 为 认证 机 构 (certification authorities) 。 所 有 认证 机 构 都 
有 维护 服务 器 ， 有 需要 的 人 可 以 连接 这 些 服务 器 下 载 公 钥 信息 。 
此 ， 当 你 的 计算 机 收 到 一 个 数字 签名 时 ， 签 名 还 会 伴 有 说 明 可 以 去 哪 
些 认证 机 构 获 取 签 名 者 公 钥 的 信息 。 











你 可 能 已 经 注意 到 了 这 个 问题 ， 的 确 ， 计 算 机 能 先 一 步 通过 制定 
认证 机 构 验 证 签名 ， 但 我 们 怎么 才能 信任 机 构 本 喘 呢 ? 我 们 的 做 法 就 
是 将 验证 一 个 组 织 〈 发 送 软 件 给 你 的 组 织 ， 如 NanoSoft. com) 身份 的 
问题 ， 转 移 为 验证 另 一 个 组 织 〈 认 证 机 构 ， 如 TrustMe Inc) 身份 的 问 
题 。 不 管 你 相 不 相信 ， 这 个 问题 基本 上 通过 认证 机 构 〈TrustMe 
Inc. ) 的 数字 签名 指引 你 前 往 另 一 个 认证 机 构 《〈 如 PleaseTrustUs 
Ltd. ) 验证 。 这 种 信任 链 可 以 无 限 扩展 ， 但 我 们 永远 会 卡 在 同一 问题 
上 : 我 们 如 何 能 信任 链条 末端 的 组 织 ? 答案 如 上 图 所 示 ， 一 些 特 定 组 
织 被 正式 指认 为 所 谓 的 根 认 证 机 构 。VeriSign、GlobalSign 和 
GeoTrust 等 都 是 较为 知名 的 根 认 证 机 构 。 在 你 有 要 求 时 ， 众 多 根 认证 
机 构 的 联系 细节 (包括 互联 网 地 址 和 公 钥 〉 会 预 装 到 浏览 器 软件 中 ， 
这 也 是 数字 证 书 的 信任 链 稳 立 于 一 个 值得 信任 的 起 点 的 原因 。 
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PleaseTmstUs 


预 装 在 浏览 如 中 


A ne 


VeriSign 





获取 验证 数字 签名 所 需要 的 信任 链 。 


| 悖 论 解决 


在 本 章 开 头 ， 我 指出 “digital signature”《 数 字 签 名 ) 这 一 短 

语 可 以 被 视 为 矛盾 修饰 法 : 任何 数字 的 东西 都 能 被 拷贝 ， 而 签名 不 应 

该 能 被 拷贝 。 如 何 解决 这 一 悖 论 呢 ? 答案 是 ， 一 个 数字 签名 同时 依赖 

个 只 有 签名 者 知道 的 秘密 和 被 签署 的 消 恩 。 对 于 由 某 一 特别 实体 签 

荀 的 所 有 消 恩 ， 秘 密 〈 我 们 在 全 革 中 称 其 为 挂 锁 〉 都 相同 。 因 此 ， 任 

何人 都 能 轻易 找 贝 签名 的 事实 束 变 得 无 关 紧 要 了 : 签名 只 可 能 转化 成 
一 条 相同 的 消 轧 ， 仅 仅 是 拷贝 签名 并 不 构成 伪造 。 











这 一 悖 论 的 解决 方案 不 仅仅 是 个 精巧 美丽 的 思想 。 数 字 签 名 还 起 
独 巨 大 的 实际 作用 : 没有 数字 签名 ， 我 们 所 知 的 互联 网 束 不 会 存在 。 
数据 仍 可 以 通过 加 密 安 全 交换 ,但 要 验证 接收 数据 的 来 源 就 要 困难 得 
多 。 这 一 伟大 思想 和 如 此 广泛 的 实际 影响 相 结 合 ， 无 疑 让 数字 签名 成 
为 计算 机 科学 中 最 伟大 的 成 束 之 一 。 


第 十 章 ， 什 么 可 以 计算 一 “有 些 程序 不 可 
能 存在 


让 我 提醒 你 一 些 计算 机 的 问题 。 


一 一 理 查 德 。 费 曼 (Richard Feynman) ， 
1965 年 诺 贝 尔 物 理学 奖 获得 者 


我 们 已 经 见识 过 很 多 聪明 、 强 大 且 精 准 的 算法 一 一 这 些 算 法 将 计 
算 机 的 生硬 金属 化 为 你 指 尖 的 精灵 。 事 实 上 ， 根 据 前 面 章 节 的 描述 ， 
很 目 然 让 人 想到 : 有 什么 事情 是 计算 机 不 能 为 我 们 做 到 的 吗 ? 如果 我 
们 把 范围 限制 在 计算 机 现在 能 做 的 事情 上 ， 答 案 很 清楚 : 目前 ， 计 算 
机 在 许多 有 用 任务 (大 多 数 设 计 某 种 形式 的 人 工 智能 ) 上 表现 不 好 。 
例如 英语 和 汉语 这 些 语言 之 间 的 高 质量 翻译 ， 在 楷 忙 的 城市 环境 中 目 
动 控制 车 辆 安全 快速 行驶 ; 给 学 生 功 课 打 分 〈 作 为 老师 ， 这 对 我 来 说 


征 个 大 问题 ) 。 











然而 ， 正 如 我 们 已 经 看 到 那样 ， 一 个 真正 聪明 的 算法 能 取得 的 成 
果 常 第 出 人 意料 。 也 许 束 在 明天 ， 有 人 发 明了 一 种 完美 驾驶 汽车 的 算 
法 ， 或 一 种 在 给 学 生 打 分 上 效果 很 好 的 算法 。 这 些 问题 看 起 来 的 确 很 
困难 ， 但 是 否 困难 到 不 能 解决 呢 ? 的 确 ， 有 问题 能 难 到 永远 没有 人 能 
发 明 解 决 它 的 算法 吗 ? 在 本 章 ， 我 们 会 看 到 答案 是 肯定 的 : 有 些 问题 
计算 机 永远 也 解决 不 了 。 这 一 显著 事实 一 一 一 些 事情 “可 计算 ”而 其 
他 事情 则 不 能 一 一 与 我 们 在 前 面 章节 中 所 见 的 许多 算法 形成 有 趣 对 








比 。 不 管 未 来 会 发 明 多 少 聪明 算法 ， 有 些 问题 的 答案 永远 也 “不 可 计 
算 ” 。 


不 可 计算 问题 的 存在 本 身 就 足够 震 插 ， 但 发 现 它 们 的 故事 更 令 人 
印象 深刻 。 在 发 明 出 第 一 台电 子 计算 机 前 ， 这 类 问题 的 存在 就 已 为 人 
所 知 。 有 两 位 数学 家 一 一 一 位 是 美国 人 ， 一 位 是 英国 人 一 一 于 20 世 纪 
30 年 代 末 各 目 独 立 友 现 了 不 可 计算 问题 ， 比 第 一 台 真 正 的 计算 机 自 第 
二 次 世界 大 战 之 间 出 现 早 数 年 。 那 位 美国 人 是 阿 隆 佐 。 即 奇 (Alonzo 
Church) ， 其 在 计算 理论 上 的 突破 性 工作 至 今 仍 是 计算 机 科学 许多 方 
面 的 基础 。 那 位 英国 人 只 能 是 阿兰 。 图 灵 ， 其 被 普通 视 为 创建 计算 机 
科学 最 重要 的 人 物 。 图 元 的 工作 横路 计算 思想 的 整个 范围 ， 从 复杂 的 
数学 理论 、 伟 大 的 哲学 到 大 胆 实际 的 工程 学 。 在 本 章 ， 我 们 奶 随 印 奇 
和 图 灵 的 脚步 ， 进 行 一 次 最 终 会 展示 茶 个 特殊 任务 不 可 能 使 用 计算 机 
完成 的 旅程 。 这 一 旅程 将 于 下 一 部 分 对 漏洞 和 骨 湿 的 讨论 开始 。 








漏洞 、 朋 涡 及 软件 的 可 徘 性 





近年 来 计算 机 软件 的 可 靠 性 得 到 了 大 幅 提 升 ， 但 我 们 都 知道 ， 假 
设 软件 会 正确 运行 仍然 不 是 一 个 好 主意 。 最 通常 的 情况 是 ， 即 便 高 质 
量 、 编 写 良 好 的 软件 都 会 做 些 偏离 其 原 有 目的 的 事 。 最 糟 料 的 情况 
是 ， 软 件 “ 册 江 ”， 你 丢失 了 正在 处 理 的 数据 或 文件 (或 你 正在 玩 的 
视频 游戏 一 一 非 第 令 人 不 解 ， 我 束 碰 到 过 这 种 事 ) 。 但 任何 在 20 世 纪 
80 年 代 和 90 年 代 见 过 家 用 计算 机 的 人 都 能 作证 ， 当 时 计算 机 程序 毅 训 
的 频率 要 比 21 世 纪 大 得 多 。 取 得 这 一 提升 有 许多 原因 ， 但 主要 原因 是 
目 动 化 软件 检查 工具 上 取得 的 巨大 进步 。 换 言 之 ， 一 旦 一 组 计算 机 程 
序 员 编 写 完 一 个 复 保 的 大 型 计算 机 程序 ， 他 们 就 能 使 用 一 个 自动 工具 
检查 可 能 导致 这 一 新 建 软件 册 尝 的 问题 。 而 这 些 上 自动 化 检查 工具 在 发 
现 潜 在 错误 上 也 变 得 越 来 越 好 。 




















这 目 然 会 让 人 思考 一 个 问题 : 目 动 化 软件 检查 工具 能 否 发 展 到 可 
以 侦 测 所 有 计算 机 程序 中 所 有 潜在 问题 的 地 步 呢 ?要 是 能 这 样 肯 定 很 
好 ， 因 为 这 能 一 大 水 逸 地 消除 软件 朋 尝 的 可 能 性 。 我 们 将 在 本 章 了 解 
到 ， 永 远 也 达 不 到 这 种 软件 理想 境界 : 可 以 证 明 不 可 能 有 软件 检查 工 
有 共 能 侦 测 出 所 有 程序 中 所 有 可 能 的 骨 温 。 





在 这 里 ， 值 得 花 多 点 时 间 解 释 一 些 事情 “可 以 证 明 不 可 能 ”的 意 
思 。 在 物理 学 和 生物 学 等 大 多 数 科 学 中 ， 科 学 家 们 会 对 特定 系统 的 行 
为 方式 提出 假说 ， 并 开展 实验 ， 验 证 假说 是 否 正确 。 但 由 于 实验 本 入 
有 一 定 的 不 确定 性 ， 并 不 能 百 分 百 确定 假说 正确 与 个 ， 即 便 实 验 本 喘 
非常 成 功 。 然 而 ， 与 目 然 科学 形成 鲜明 对 比 的 是 ， 对 数学 和 计算 机 科 
学 的 一 些 结果 是 可 能 百 分 百 予以 确定 的 。 只 要 你 接受 数学 基本 定理 
《如 1+1=2) ， 数 学 家 使 用 的 演绎 推理 链 可 以 完全 确定 其 他 众多 语句 为 
真 《 比 如 ，“ 任 何以 5 结束 的 数 都 能 被 5 相 除 ”) 。 这 种 推理 并 不 涉及 
计算 机 : 数学 家 只 使 用 一 文 铅笔 和 一 张 纸 就 能 证 明 无 可 争辩 的 事实 。 











因此 ， 在 计算 机 科学 中 ， 当 我 们 说 “X 可 以 证 明 不 可 能 ”时 ， 我 们 
并 不 只 是 说 X 似 乎 非常 困难 ， 或 在 实际 中 也 许 不 可 能 实现 ， 而 是 百 分 百 
确定 X 不 可 能 实现 ， 因 为 有 人 用 演绎 数学 推理 链 证 明了 这 一 点 。 举 个 简 
单 例子 ，“10 的 倍数 以 数字 3 结尾 可 以 证 明 不 可 能 ”。 男 一 个 例子 古本 
间 的 最 终结 论 : 可 以 证 明 不 可 能 存在 一 个 能 侦 测 所 有 计算 机 程序 中 所 
有 潜在 朋 尝 的 目 动 化 软件 检查 器 。 


有 证 9 一 些 事 情 不 为 


要 证 明 这 种 骨 尝 侦 测 程序 不 可 能 存在 ， 我 们 将 要 使 用 一 种 被 数学 
家 称 为 反 证 法 (proof by contradiction) 的 技巧 证 明 。 尽 管 数 学 家 
言 欢 对 这 一 技巧 宣示 权利 ， 但 实际 上 人 们 在 日 常生 活 中 常常 用 到 它 ， 
经 党 连 想 都 没 想 过 。 举 个 简单 例子 : 




















一 开始 ， 我 们 要 同意 下 面 两 个 事实 ， 即 便 是 最 持 怀 疑 的 历史 学 家 
也 不 会 对 此 有 异议 。 


1. 美国 内 战 发 生 在 19 世 纪 60 年 代 。 
2 亚伯拉罕。 林肯 是 美国 内 战 期 间 的 总 统 。 


现在 ， 假 设 我 作出 以 下 声明 ; “亚伯拉罕 。 林 肯 生 于 1520 年 。” 
这 一 声明 是 真是 假 ? 即便 你 除了 上 面 两 个 事实 外 对 亚伯拉罕 。 林肯 一 
无 所 知 ， 你 怎 能 快速 判断 我 的 声明 为 假 呢 ? 





最 有 可 能 的 情况 是 ， 你 的 大 脑 会 经 历 类 似 下 面 的 推理 链 : (1) 没 
有 人 的 寿命 能 超过 150 年 ， 因 此 如 果 亚 伯 拉 罕 。 林 肯 生 于 1520 年 ， 他 最 
述 也 是 在 1670 年 死亡 ; (2) 林肯 是 美国 内 战 期 间 的 总 统 ， 因 此 内 战 必 
须发 生 在 林肯 死亡 前 ， 也 就 是 发 生 在 1670 年 前 ; (3) 但 这 不 可 能 ， 因 
为 所 有 人 都 认同 美国 内 战 发 生 在 19 世 纪 60 年 代 ; (4) 因此 ， 林 肯 不 可 
能 生 于 1520 年 。 





让 我 们 尝试 更 细致 地 检验 这 一 推理 。 为 何 得 出 最 开始 声明 为 假 的 
结论 有 效 ? 这 是 因为 我 们 证 明 这 一 断言 与 一 些 已 知 为 真 的 事实 矛盾 。 
特别 是 ， 我 们 证 明 最 初 声明 上 暗示 美国 内 战 发 生 在 1670 年 前 一 一 这 与 美 
国内 战 发 生 在 19 世 纪 60 年 代 的 已 知事 实 相 矛 盾 。 








反 证 法 技巧 极其 重要 ， 我 还 要 再 多 举 氮 数学 例子 。 假 设 我 做 出 下 
列 断 言 : “人 的 心脏 10 分 钟 内 平均 跳 6 000 次 。” 这 一 断言 是 真是 假 ? 
你 也 许 很 快 束 会 怀疑 ， 但 你 要 如 何 证 明 其 为 假 呢 ? 现 在， 在 继续 往 下 
读 前 ， 花 几 秒 钟 分 析 下 你 的 思考 过 程 。 





我 们 可 以 再 用 反 证 法 。 首 先 ， 出 于 论证 的 目的 ， 假 设 这 一 断言 为 
真 : 人 的 心脏 10 分 钟 平均 跳 约 6 000 次 。 如 果 这 一 断言 为 真 ， 一 分 钟 心 
脏 会 跳动 多 少 次 ? 平均 来 看 ， 用 6 000 除 以 10， 也 就 是 一 分 钟 600 次 。 





即便 不 是 医学 专家 ， 你 也 知道 这 比 正常 心率 高 很 多 ， 正 常 心 率 约 为 每 
分 钟 50 次 至 150 次 心跳 。 因 此 ， 原 始 声 明 与 已 知事 实 巴 盾 ， 肯 定 为 假 : 
人 的 心脏 10 分 钟 平均 跳动 约 6 000 次 为 假 。 





用 更 抽象 的 术语 表示 ， 可 以 如 下 总 结 反 证 法 : 假设 怀疑 某 个 声明 5S 
为 假 ， 但 你 却 想 确信 无 疑 地 证 明 其 为 假 。 首 先 ， 你 假设 S 为 真 。 通 过 进 
行 一 些 推理 ， 你 得 出 某 个 声明 T 也 必须 为 真 。 然 而 ， 如 果 已 知 ? 为 假 ， 
就 出 现 了 矛 慎 。 这 证 明 你 的 原始 假设 (S〉 也 必 为 假 。 

数学 家 可 以 更 为 简短 地 说 明 这 些 ， 只 要 说 “S 导 出 T， 但 ?为 假 ， 
此 S 为 假 ” 这 样 的 话 即 可 。 简 言 之 ， 这 束 是 反 证 法 。 下 表 展 示 了 如 何 将 
这 一 


抽象 反 证 法 与 上 面 两 个 例子 联系 起 来 : 


和 | 第 = 个 了 


S (原始 声明 ) 林肯 生 于 1520 年 I 钟 平均 跳 6 000 


[~ 
月 
出 0 0 人 的 心脏 每 分 钟 跳 600 次 


结论 : 5 为 候 宁 千 并非 生 于 1520 年 | 人 














到 这 里 ， 我 们 进行 反 证 法 的 旅程 就 完成 了 。 本 章 的 最 终 目 标 是 通 
过 反 证 证 明 ， 不 存在 一 个 能 侦 测 其 他 程序 中 所 有 可 能 有 衣 湿 的 程序 。 但 
在 迈 问 这 一 最 终 目 标 前 ， 我 们 需要 熟悉 一 些 和 计算 机 程序 有 关 的 有 趣 


il 分 析 其 他 程序 的 程序 








计算 机 会 严格 按照 计算 机 程序 的 指令 行事 。 它 们 完全 按照 决定 论 
方式 行事 ， 因 此 每 次 运行 同一 计算 机 程序 都 会 得 到 相同 的 结果 。 输 出 
是 对 还 是 错 ? 事实 上 ， 我 还 没有 给 你 足够 信息 来 回答 这 一 问题 。 的 
确 ， 特 定 的 简单 计算 机 程序 每 次 运行 后 都 能 得 到 相同 的 结果 ， 但 我 们 
每 天 使 用 的 绝 大 多 数 程序 每 次 在 运行 时 看 起 来 都 非常 不 同 。 想 想 你 最 
喜欢 的 文字 处 理 程序 : 每 次 启动 时 屏幕 看 起 来 都 一 样 吗 ? 当然 不 是 
一 一 屏幕 出 现 什么 取决 于 你 打开 的 文件 类 型 。 如 果 我 使 用 Microsoft 
Word 软 件 打开 文件 “address-list. docx”， 屏 幕 就 会 显示 一 个 我 保存 
在 电脑 上 的 地 址 列表 。 如 果 我 用 Microsoft Word 软 件 打 开 文 件 “bank- 
letter. docx”， 我 就 能 看 到 昨天 写 给 银行 的 信件 文本 。 【如果 你 不 认 
识 “. docx”， 请 在 下 页 的 框 中 碍 找 关 于 文件 名 后 缀 的 内 容 。) 





























有 件 事 我 们 要 非常 清楚 : 我 在 这 两 个 例子 中 使 用 的 都 是 同一 蒜 计 
算 机 程序 ， 也 就 是 Microsoft Word 软 件 ， 只 是 每 个 例子 中 的 输入 不 同 
罢了 。 不 要 被 所 有 现代 操作 系统 都 能 让 你 双击 一 个 文件 来 运行 一 个 计 
算 机 程序 这 一 事实 所 愚弄 。 那 只 是 你 友好 的 计算 机 公司 (最 可 能 是 苹 
果 或 微软 ) 提供 给 你 的 一 项 便利 。 当 你 双击 一 份 文件 时 ， 一 个 特定 的 
计算 机 程序 就 会 运行 ， 程 序 会 将 文件 当 作 输 入 使 用 。 而 程序 的 输出 就 
是 你 在 屏幕 上 看 到 的 ， 这 取 雇 于 你 点 击 了 什么 文件 。 





在 整 章 中 ， 我 都 会 使 用 如 “abcd. txt” 这 样 的 文件 名 。 英 文 
句号 后 面 的 部 分 被 称 为 文件 名 的 “后 缀 ” (extension) 一 一 
“abcd. txt” 的 后 弘 就 是 “txt”。 绝 大 多 数 操作 系统 用 一 个 文件 
名 的 后 级 判定 文件 包含 什么 类 型 的 数据 。 比 如 ，“. txt” 文 件 通 
党 包含 纯 文本 ，“. html ”文件 通常 包 仿 网页， 而“. docx” 文 件 
则 包含 Microsoft Word 文 件 。 一 些 操 作 系 统 默 认 隐 藏 这 些 后 级 ， 
只 有 在 操作 系统 中 关闭 “隐藏 后 经” 功能 后 才能 看 到 。 在 网 络 中 
搜索 “unhide file extensions”【〔 显 示 文 件 后 级 ) 会 显示 如 何 
操作 的 指南 。 


一 些 关于 文件 名 后 级 的 技术 细节 。 


在 现实 中 ， 计 算 机 程序 的 输入 和 输出 要 比 这 复杂 得 多 。 比 如 ， 当 
你 点 击 一 个 程序 的 沫 单 或 打字 时 ， 你 都 在 给 程序 以 额外 输入 。 当 你 保 
ee 程序 会 创造 额外 输出 。 但 为 保持 简单 起 

， 假 设 程序 接收 的 都 是 同样 的 输入 ， 即 存储 在 你 计算 机 上 的 一 个 文 
我 们 还 假设 程序 得 到 相同 的 输出 ， 即 你 显示 屏 上 的 图 形 帘 口 。 











不 羊 的 是 ， 双 击 文件 的 现代 便利 产生 了 一 个 重要 问题 。 操 作 系 统 
使 用 多 种 聪明 的 把 戏 来 推测 ， 当 你 双击 一 个 文件 时 ， 你 希望 运行 哪个 
程序 。 但 用 任意 程序 打开 任意 文件 是 可 能 的 ， 意 识 到 这 一 点 很 重要 。 
换言之 ， 你 可 以 将 任意 文件 作为 输入 来 运行 任意 程序 。 这 一 切 是 怎么 
做 到 的 ?下 面 的 框 列 出 了 几 种 可 以 让 你 尝试 的 方法 。 这 些 方法 不 会 在 
所 有 操作 系统 上 和 奏效， 也 不 能 对 所 有 输入 文件 答 效 一 一 不 同 的 操作 系 
统 用 不 同 的 方式 局 动 程序 ， 有 时 候 出 于 安全 考虑 ， 它 们 会 限制 输入 文 
件 的 选择 。 不 管 怎样 ， 我 强烈 建议 你 花 几 分 钟 在 电脑 上 试验 ， 以 确信 
你 钟爱 的 文字 处 理 程 序 可 以 用 多 种 不 同 的 输入 文件 运行 。 














下 面 列举 三 种 用 stuff. txt 作 为 输入 文件 运行 Microsoft Word 
软件 的 方法 : 

。 右 键 点 击 stuff. txt, 选择 “打开 方式 ”， 选 择 Microsoft 
Word。 


。 首先， 用 操作 系统 的 功能 在 桌面 上 放置 一 个 Microsoft 
Word 的 快捷 方式 。 然 后 将 stuff. txt 拖 动 到 这 个 Microsoft Word 快 
司 方 式 呈 小 


。 直接 打开 Microsoft Word 软 件 ， 选 择 “ 文 件 ” 菜 单 的 “ 打 
开 ” 命 令 ， 确 保 选 项 显示 “所 有 文件 ”， 然 后 选择 stuff. txt。 


用 某 一 特定 文件 作为 输入 运行 一 个 程序 的 多 种 方法 。 
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Microsoft Excel 将 “photo. jpg” 作 为 输入 运行 的 结果 。 输 出 虽 是 乱码 ， 但 重要 的 
是 ， 原 则 上 你 能 用 任何 输入 运行 任意 程序 。 


很 显然 ， 如 果 使 用 程序 打开 本 非 其 能 处 理 的 文件 ， 你 会 得 到 相当 
出 人 意料 的 结果 。 在 上 图 中 ， 你 可 以 看 到 用 电子 表格 程序 Microsoft 
Excel 打 开 图 片 文件 “photo. jpg” 时 出 现 的 情景 。 这 个 例子 得 到 的 输 
出 是 乱码 ， 吧 无 用 处 。 但 电子 表格 程序 的 确 运 行 了 ， 并 生成 了 一 些 输 
出 。 


上 面 的 例子 看 起 来 已 经 很 充 座 了 ， 但 我 们 要 更 加 疯狂 一 点 。 你 应 
该 还 记得 ， 计 算 机 程序 本 身 就 作为 文件 存储 在 计算 机 硬盘 上 。 通 常 ， 
这 些 程序 的 名 字 以 “. exe” 结 尾 ，“exe” 是 “executable”“【〔 可 执 
行 ) 的 缩写 ， 表 示 你 能 “execute”“【〔 执 行 ) 或 运行 程序 。 因 为 计算 机 
程序 只 是 硬盘 上 的 文件 ， 我 们 可 以 将 一 个 计算 机 程序 作为 另 一 个 计算 
机 程序 的 输入 。 比 如 ，Microsoft Word 程 序 在 计算 机 上 以 文件 


“WINWORD. EXE” 存 储 ， 通 过 将 文件 WINWORD. EXE 作 为 输入 来 运行 电子 
表格 程序 ， 我 能 得 到 如 下 图 中 所 示 的 乱码 。 





1 让 有 rEEThis program cannot be run in DOS mode. 


Te soresgxe6prehedore bers0r 





用 Microsoft Exce1 检 查 Microsoft Word。 当 Microsoft Exce1 打 开 文 件 
WINWORD. EXE， 得 到 的 结果 是 乱码 一 点 也 不 让 人 意外 。 








和 前 面 一 样 ， 值 得 亲自 试 一 试 这 个 实验 。 要 进行 这 一 实验 ， 你 需 
要 先 找 到 文件 WINWORD. EXE。 在 我 的 计算 机 上 ，WINWORD. EXE 位 于 文件 
夹 “C:\Program Files\Microsoft 0ffice\0ffice12” 内 ,但 其 具体 
位 置 取决 于 你 使 用 的 操作 系统 以 及 安装 的 Microsoft 0ffice 版 本 。 在 
查看 这 一 文件 夹 之 前 ， 你 也 许 还 需要 启用 查看 “隐藏 文件 ”的 功能 。 
顺便 提 一 句 ， 你 可 以 用 任何 电子 表格 或 文字 人 处理 程序 进行 这 一 实验 
(以 及 下 面 的 一 个 实验 ) ， 尝 试 并 不 一 定 要 用 Microsoft 0ffice。 











我 们 还 要 做 最 后 一 件 傻 事 。 如 果 用 一 个 计算 机 程序 自身 作为 输入 
来 运行 这 个 程序 昵 ? 比如 ， 如 果 我 用 文件 WINWORD. EXE 作 为 输入 来 运行 
Microsoft Word 呢 ? 尝试 这 一 实验 很 容易 。 下 图 显示 了 我 在 计算 机 上 
试验 的 结果 。 和 之 前 的 几 个 例子 一 样 ， 程 序 运 行 展 好 ， 但 屏幕 上 的 输 
出 绝 大 多 数 是 乱码 。 (自己 尝试 一 下 。) 














那么 ， 所 有 这 些 例子 想 表 达 什 么 ?论述 的 目的 是 ， 让 你 能 对 一 些 
在 运行 程序 时 出 现 的 更 难 懂 的 事情 见怪 不 怪 。 现 在 ， 你 应 该 适应 这 三 
个 略 显 奇 怪 但 在 后 面 非常 重要 的 想法 了 。 第 一 ， 任 何 程序 可 以 将 任何 
文件 作为 输入 运行 ， 但 通常 输出 结果 为 乱码 ， 除 非 输入 文件 本 该 配合 




















由 你 选择 运行 的 程序 。 第 二 ， 我 们 发 现 ， 计 算 机 程序 作为 文件 存储 在 
计算 机 磁盘 上 ， 因 此 一 个 程序 可 以 用 另 一 个 程序 作为 其 输入 文件 运 
行 。 第 三 ， 我 们 意识 到 ， 计 算 机 程序 能 将 其 自身 文件 作为 输入 运行 。 
到 目前 为 止 ， 第 二 种 和 第 三 种 活动 的 结果 一 直 是 乱码 ， 但 我 们 将 在 下 
一 部 分 看 到 一 个 这 些 把 戏 最 终结 出 了 一 些 果实 的 迷人 例子 。 
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Microsoft Word 检 查 自身 。 打 开 的 文档 是 文件 WINWORD. EXE， 即 你 点 击 Microsoft 
Word 时 实际 运行 的 计算 机 程序 。 


有 些 程 序 不 可 能 存在 


计算 机 在 执行 简单 指令 上 非常 棒 一 一 事实 上 ， 现 代 计 算 机 每 秒 能 
执行 数 十 亿 次 简单 指令 。 你 也 许 会 想 ， 任 何 任务 都 能 以 简单 、 精 确 的 
英语 描述 并 写成 一 个 计算 机 程序 ， 由 计算 机 执行 。 我 在 这 一 部 分 的 目 


标 是 说 服 你 与 之 相反 的 情况 为 真 ， 有 些 简单 、 精 确 的 英语 声明 确实 不 
可 能 写成 计算 机 程序 。 





一 些 简单 的 是 一 否 程序 (Yes-No Program) 


为 让 这 一 部 分 的 内 容 尽 可 能 简单 ， 我 们 只 会 思考 一 种 非常 无 聊 的 
计算 机 程序 。 我 们 称 它们 为 “是 一 否 ” 程 序 ， 因 为 这 些 程 序 唯 一 能 做 
的 就 是 弹出 一 个 对 话 框 ， 对 话 框 的 内 容 要 么 是 单词 “yes”【( 是 ) 或 单 
词 “no” 和 否 ) 。 比 如 ， 我 在 几 分 钟 前 写 了 一 个 名 为 ProgramA. exe 的 
计算 机 程序 ， 这 个 程序 只 能 生成 下 列 对 话 框 : 


:时 ProgeramA. exe 国 | 四 六 






yes 


注意 看 对 话 框 的 标题 栏 ， 你 能 看 到 生成 这 一 结果 的 程序 名 ProgramA. exe。 


我 还 写 了 另 一 个 名 为 ProgramB. exe 的 计算 机 程序 ， 其 输出 为 
4 而 非 yea , 


-programB. exe [el bd 





ProgramA 和 ProgramB 都 非常 简单 一 一 事实 上 ， 人 简单 到 不 需要 任何 
输入 。“《 如 果 它 们 确实 接收 到 了 输入 ， 它 们 也 会 忽略 。) 换言之 ， 它 





们 就 是 那些 不 管 给 予 任何 输入 ， 每 次 运行 都 表现 相同 的 程序 的 例子 。 








我 还 创造 了 一 个 名 为 SizeChecker. exe 的 程序 ， 它 是 这 些 是 一 售 程 
序 中 很 有 趣 的 例子 。 给 该 程序 输入 一 个 文件 ， 如 果 文 件 大 于 10 KB， 程 
序 就 输出 “yes”， 反 之 输出 “no”。 如 果 右 键 点 击 一 个 50 M 的 视频 文 
件 (假设 是 mymovie.mpg ) ， 选 择 “ 打 开 方 式 ”， 选 取 
SizeChecker. exe， 你 就 会 看 到 如 下 输出 : 


SizeChecker. exe 漂 口 |X 





另外 ， 如 果 我 在 一 条 3KB 的 小 电子 邮件 消息 上 运行 同一 程序 〈 假 设 
是 myemail.msg) ， 输 出 自然 不 同 : 


sizeChecker. exe ,| pd 





因此 ，SizeChecker. exe 也 是 有 时 输出 “yes”， 有 时 输出 “no” 
的 是 一 否 程 序 例子 。 


现在 思考 接 下 来 这 个 稍 有 不 同 的 程序 ， 我 们 称 之 为 
NameSize. exe。 这 个 程序 会 检验 其 输入 文件 的 名 称 ， 如 果 文 件 名 只 有 
一 个 字母 长 ，NameSize. exe 输 出 “yes”; 反之 输出 “no”。 这 个 程序 


会 有 哪些 可 能 的 输出 ? 根据 定义 ， 所 有 输入 文件 的 名 称 都 至 少 有 一 个 
字母 长 〈 否 则 ， 文 件 就 没有 名 称 ， 也 就 不 能 在 一 开始 选取 它 ) 。 
此 ，NameSize. exe 会 一 直 输 出 “yes”， 不 管 输入 是 什么 。 





顺便 说 一 句 ， 上 面 提 到 的 几 个 程序 是 用 其 他 程序 作为 输入 时 ， 不 
生成 乱码 的 首 批 程序 例子 。 比 如 ， 文 件 NameSize. exe 的 大 小 只 有 约 8 
KB。 因 此 ， 如 果 你 用 NameSize. exe 作 为 输入 运行 SizeChecker. exe， 输 
出 为 “no” (因为 NameSize. exe 不 超过 10 KB ) 。 我 们 甚至 可 以 让 
SizeChecker. exe 在 目 身 上 运行 。 这 次 会 输出 “yes”， 为 
SizeChecker. exe 要 大 于 10 KB 一 一 事实 上 ， 约 为 12 KB。 类 似 的 ， 我 们 
可 以 让 NameSize.exe 用 上 自身 作为 输入 运行 ; 由 于 文件 名 
“NameSize. exe” 包 含 不 止 一 个 字母 ， 输 出 应 该 是 “yes”。 不 得 不 承 
认 ， 我 们 到 目前 为 止 讨论 的 所 有 是 一 否 程 序 都 相当 无 聊 ， 但 理解 它们 
的 行为 很 重要 ， 请 逐 行 查看 下 面 的 表 ， 确 你 你 赞同 每 项 输出 。 


AlwaysYes.exe: 一 个 分 析 其 他 程序 的 是 一 人 否 程序 








运行 的 程序 输入 文件 


ProgramA.exe address-list.docx 
ProgramA.exe 


address-list.docx 















ProgramA.exe 
ProgramB.exe 


ProgramB.exe ProgramA.exe 






SizeChecker.exe | mymovie.mpg (5O0MB) 





myemail.msg (3KB) 
NameSize.exe (8KB) 
SizeChecker.exe (12KB) 


mymovie.mpg 


SizeChecker.exe 





SizeChecker.exe 





SizeChecker.exe 






NameSize.exe 






NameSize.exe ProgramA.exe 






NameSize.exe 





NameSize.exe 





一 些 简单 是 一 否 程序 的 输出 。 注 意 无 视 其 输入 一 直 输 出 “yes” 的 程序 (如 
ProgramA. exe、 NameSize. exe) 和 有 时 输出 “no” (如 SizeChecker. exe) 或 一 直 
输出 “no” 的 程序 (如 ProgramB. exe) 之 间 的 区 别 。 


现在 我 们 要 思考 一 些 更 有 趣 的 是 一 个 程序 。 我 们 将 要 研究 的 第 一 
个 程序 名 为 “AlwaysYes. exe”。 这 个 程序 会 检测 输入 文件 ， 如 果 输 入 
文件 本 身 是 一 个 永远 输出 “yes” 的 是 一 否 程序 ， 则 AlwaysYes. exe 会 
输出 “yes”。 反 之 ，AlwaysYes.exe 的 输出 为 “no”。 注 意 
AlwaysYes.exe 能 完美 运行 任何 种 类 的 输入 文件 。 如 果 你 给 
AlwaysYes.exe 的 输入 文件 不 是 可 执行 程序 (假设 是 
addresslist. docx) ， 程 序 会 输出 “no”。 如 果 你 给 AlwaysYes. exe 的 








输入 文件 是 可 执行 程序 〈 假 设 是 WINWORD. EXE) ， 程 序 会 输出 “no”。 

如 果 你 用 一 个 是 一 人 否 程序 作为 输入 ， 但 这 个 是 一 人 否 程序 有 时 会 输出 
“no”， 那 么 AlwaysYyes. exe 会 输出 “no”。 只 有 在 你 输入 一 个 不 管 输 
入 是 什么 永远 输出 “yes” 的 是 一 否 程序 时 ，AlwaysYes. exe 才 会 输出 
“yes”。 到 目前 为 止 ， 我 们 已 经 在 讨论 中 见 了 两 个 这 样 的 程序 例子 : 

ProgramA. exe 和 NameSize. exe。 下 表 总 结 了 AlwaysYes. exe 用 多 个 不 同 
输入 文件 时 的 输出 ， 包 括 运行 AlwaysYes. exe 自 身 的 情况 。 正 如 你 在 表 
中 最 后 一 行 所 看 到 的 ，AlwaysYes. exe 在 运行 自身 时 输出 “no”， 因 为 
AlwaysYes. exe 在 输入 一 些 文件 时 会 输出 “no”。 














AlwaysYes.exe outputs 
输入 文件 
address-jlist.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.eXe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 





AlwaysYes. exe 对 多 种 输入 的 输出 。 只 有 永远 输出 “yes” 的 是 一 否 程 序 才 会 让 
AlwaysYes. exe 输 出 “yes” 在 这 里 就 是 ProgramA. exe 和 NameSize. exe。 





在 表 的 倒数 第 二 行 ， 你 也 许 注 意 到 出 现 了 一 个 之 前 未 曾 出 现 的 名 
为 Freeze. exe 的 程序 。Freeze. exe 是 一 款 程序 ， 是 做 计算 机 程序 最 令 
人 讨厌 的 事情 之 一 : 它 会 “冻结 ”【〔 不 管 输入 是 什么 )。 你 可 能 自己 
经 历 过 ， 当 一 个 视频 游戏 或 应 用 程序 看 起 来 锁定 (或 “冻结 ”) 了 ， 
拒绝 对 更 多 输入 做 出 啊 应 。 在 此 之 后 ， 你 唯一 的 选择 就 是 终止 程序 。 
如 果 这 还 不 奏效 ， 你 甚至 可 能 需要 关闭 电源 并 重启 。 (有 时 候 在 使 用 








笔记 本 电脑 时 ， 断 电 要 移 除 电池 ! ) 计算 机 程序 冻结 的 原因 多 种 多 
样 。 有 时 是 因为 “ 死 锁 ”， 我 们 在 第 八 章 讨 论 过 它 。 在 其 他 情况 中 ， 
程序 也 许 忙于 执行 一 项 永远 不 会 结束 的 计算 一 一 比如 ， 反 复 搜 索 一 块 
从 未 真正 存在 的 数据 。 


不 管 怎样 ， 我 们 无 须 理解 有 关 冻 结 程序 的 细节 。 我 们 只 需 知 道 
AlwaysYes. exe 在 给 出 这 么 一 个 程序 时 该 怎么 做 即 可 。 事 实 上 ， 
AlwaysYes. exe 的 定义 相当 仔细， 答案 也 很 清楚 : AlwaysYes. exe 在 其 
输入 水 远 输出 “yes” 时 输出 “yes”; 反之 则 输出 “no”。 因 此 ， 轨 
输入 是 像 Freeze. exe 一 样 的 程序 时 ，AlwaysYes. exe 必 须 输出 “no”， 
这 也 是 我 们 在 上 图 倒数 第 二 行 看 到 的 结果 。 





YesOnSelf.exe: 一 个 更 简单 的 AlwaysYes.exe 变 
体 





你 也 许 已 经 想到 ，AlwaysYes. exe 是 一 个 相当 聪明 、 有 用 的 程序 ， 
因为 它 能 分 析 其 他 程序 并 预测 它们 的 输出 。 必 须要 承认 的 是 ， 我 并 未 
编写 这 一 程序 一 一 我 只 是 描述 了 在 我 必须 编写 它 的 情况 下 ， 它 会 如 何 
表现 。 现 在 我 要 开始 描述 另 一 个 名 为 YesO0nSelf. exe 的 程序 。 这 个 程序 
和 AlwaysYes. exe 类 似 ， 但 更 简单 。 与 输入 文件 永远 输出 “yes” 时 输 
出 “yes” 不 同 的 是 ， 只 有 输入 文件 在 运行 自身 时 输出 “yes”， 
YesOnSelf. exe 才 会 输出 “yes”; 反之 则 输出 “no”。 换 言 之 ， 如 果 
我 将 SizeChecker. exe 作 为 YesOnSelf. exe 的 输入 ， 那 么 YesOnSelf. exe 
会 对 SizeChecker. exe 进 行 一 些 分 析 ， 以 判定 SizeChecker. exe 在 将 目 
身 作 为 输入 运行 时 会 输出 什么 。 正 如 我 们 已 经 知道 的 〈 见 上 一 节 的 
表 ) ，S$izeChecker.exe 运 行 目 身 的 输出 为 “yes” 。 让 5 
YesOnSelf. exe 运 行 SizeChecker. exe 也 会 输出 “yes”。 你 可 以 使 用 相 
同 的 推理 得 出 YesOnSelf. exe 运 行 其 他 多 种 输入 的 结果 。 注 意 ， 如 果 输 
入 文件 不 是 一 个 是 一 否 程序 ， 那 么 Yes0nSelf. exe 会 自动 输出 “no”。 








上 表 显 示 了 一 些 Yes0nSelf. exe 的 输出 一 一 请 答 试 验证 你 理解 了 表 中 每 
一 行 ， 因 为 在 继续 往 下 读 之 前 ， 理 解 Yes0nSelf. exe 的 行为 非常 重要 。 


YesOnSelf.exe outputs 
输入 文件 
address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 


YesOnSelf.exe 





YesOnSe1f. exe 运 行 多 个 输入 的 输出 。 唯 一 生成 “yes” 的 输出 就 是 运行 自身 时 输出 

“yes” 的 是 一 否 程 序 ， 即 ProgramA. exe、NameSize. exe 和 SizeChecker. exe。 表 中 
最 后 一 行 有 点 神秘 ， 因 为 看 起 来 哪 种 输出 都 正确 。 文 字 部 分 细致 地 讨论 了 这 一 情 
况 。 


我 们 要 多 注意 两 件 和 这 个 相当 有 趣 的 程序 Yes0nSelf. exe 有 关 的 事 
情 。 第 一 ， 看 一 下 上 表 最 后 一 行 。YesOnSelf. exe 运 行 自 身 的 输出 应 该 
是 什么 ”和 驻 运 的 是 ， 只 有 两 种 可 能 性 ， 因 此 我 们 逐个 思考 。 如 果 输 出 
是 “yes”， 我 们 知道 (根据 YesOnSelf. exe 的 定义 ) ，YesOnSelf. exe 
在 运行 自身 时 应 输出 “yes”。 这 有 点 饶舌 ， 但 如 果 你 仔细 推理 ， 你 会 
发 现 所 有 事情 都 完美 地 保持 一 致 ， 并 被 引导 着 得 出 “yes” 是 正确 答案 


的 结论 。 














但 先 别 急 。 假 如 Yes0nSelf. exe 运 行 上 自身 的 输出 是 “no” 呢 ? 这 和 意 
味 痢 《还 是 根据 YesOnSelf. exe 的 定义 ) YesOnSelf. exe 在 运行 自身 时 
应 该 输出 “no”。 和 之 前 一 样 ， 这 一 声明 表现 出 完美 的 一 致 ! 似乎 
YesOnSelf. exe 能 选择 性 输出 。 只 要 其 坚持 上 自己 的 选择 ， 它 的 答案 束 会 
正确 。YesOnSelf. exe 行 为 中 的 神秘 自由 很 快 就 会 成 为 一 个 相当 巨大 的 
冰山 之 一 角 ， 但 目前 我 们 还 不 准备 更 深入 探讨 这 一 问题 。 








第 二 ， 我 并 没有 编写 略 显 复杂 的 AlwaysYyes. exe 这 一 程序 。 我 所 做 
的 只 是 描述 其 行为 。 然 而 ， 请 注意 ， 如 果 假 设 我 确实 编写 了 
AlwaysYes. exe， 那 么 创建 Yes0nSelf. exe 就 会 很 容易 。 为 什么 ? 因为 
YesOnSelf. exe 要 比 AlwaysYes. exe 更 简单 : YesO0nSelf. exe 只 需 检 验 一 


个 可 能 的 输入 ， 而 非 所 有 可 能 的 输入 。 


AntiYesOnSelf.exe: YesOnSelf.exe 的 反面 


现在 休 妃 一会儿 ， 记 住 我 们 想 要 到 达 的 目标 。 本 半 的 目标 是 证 明 
查找 骨 温 的 程序 不 可 能 存在 。 但 我 们 现在 的 目标 疫 这 么 高 所。 我 们 只 
古 答 试 发 现 一 个 这 种 程序 不 可 能 存在 的 例子 。 这 将 是 旨 问 我 们 了 最 终 目 
标的 一 块 踏 脚 石 ， 因 为 一 旦 了 解 如何 证 明 茶 个 特定 的 程序 不 可 能 存 
在 ， 束 可 以 合理 地 直接 将 相同 的 技巧 运用 在 骨 尝 寻找 程序 上 。 好 消息 























征 ， 我 们 非常 接近 这 个 踏 脚 石 目 标 。 我 们 将 再 多 研究 一 个 是 一 否 程序 
就 完成 任务 了 。 


新 程序 被 称 为 “AntiYesOnSelf. exe”。 正 如 其 名 字 所 暗示 的 ， 这 
个 程序 和 YesOnSelf. exe 非 常 相似 一 一 事实 上 ， 两 个 程序 一 模 一 样 ， 只 
是 输出 逆反 了 。 如 果 Yes0nSelf. exe 对 某 个 特定 输入 输出 “yes”， 那 
么 AntiYesOnSelf. exe 会 对 同一 输入 输出 “no”。 如 果 YesOnSelf. exe 
对 某 个 输入 输出 “no”，AntiYesOnSelf. exe 会 对 同一 输入 输出 


-个 是 一 否 程序 ，AntiYesOnSelf. exe 都 





ft 


无 论 输入 文件 是 否 
会 回答 这 一 问 题 : 


输入 程序 在 自身 上 运行 时 是 否 输 出 “no”? 
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对 AntiYes0nSe1f. exe 行 为 的 简单 描述 。 


尽管 这 对 完整 精确 地 定义 AntiYyesOnSelf. exe 行 为 有 利 ， 但 更 细致 

地 说 明 其 行为 仍然 助 益 多 多 。 还 记得 Yes0nSelf. exe 对 于 在 目 身 上 运行 
时 输出 “yes” 的 输入 输出 “yes”， 反 之 输出 “no” 吧 。 因 此 ， 

AntiYesOnSelf. exe 对 于 在 上 自身 上 运行 时 输出 “yes” 的 输入 输出 

“no”， 反 之 输出 “yes”。AntiYes0nSelf. exe 会 对 其 输入 问 下 列 问 


题 : “输入 文件 在 自身 上 运行 时 是 不 是 不 会 输出 ‘yes”? ” 








不 得 不 承认 ， 对 AntiYesOnSelf. exe 的 描述 又 是 个 绕口令 。 你 也 许 
会 想 ， 换 种 说 法 “输入 文件 在 自身 上 运行 时 是 否 输出 “no”” 要 简单 
些 。 为 什么 这 么 问 不 正确 ? 为 什么 我 们 要 在 “不 输出 “yes”” 上 哆 
唆 ， 而 不 用 更 简单 的 声明 “输出 “no””? 答案 是 程序 有 时 会 做 输出 
“yes” 或 “no” 之 外 的 事情 。 因 此 ， 如 果 某 人 告诉 我 们 ， 某 个 特定 程 
序 不 输出 “yes”， 我 们 不 能 自动 得 出 结论 它 会 输出 “no”。 比 如 ， 程 











序 可 能 输出 乱码 ， 甚 至 冻结 。 不 过 ， 我 们 可 以 对 一 种 特殊 情况 得 出 一 
个 更 强 的 结论 : 如 果 我 们 预先 得 知 一 个 程序 为 是 一 否 程序 ， 那 么 我 们 
就 知道 这 个 程序 永远 不 会 冻结 或 生成 乱码 一 一 程序 永远 会 以 输出 
“yes” 或 “no” 结 束 。 因 此 ， 对 于 是 一 否 程序 而 言 ， 在 “不 输 
出 “yes”” 上 哆 唆 相当 于 更 简单 的 声明 “输出 “no””。 














因此 ， 最 终 我 们 能 对 AntiYesOnSelf. exe 的 行为 给 出 非常 简单 的 摘 
述 。 不 管 输入 文件 是 不 是 一 个 是 一 否 程 序 ，AntiYesOnSelf. exe 都 会 回 
答 这 个 问题 “输入 程序 在 自 吴 上 运行 时 是 否 输 出 “no”? ”对 
AntiYesOnSelf. exe 行 为 的 这 一 阐释 在 后 面 非常 重要 ， 所 以 我 在 上 框 中 
列 出 了 它 。 


考虑 到 我 们 在 分 析 YesO0nSelf.exe 上 所 做 的 工作 ， 为 
AntiYesOnSelf. exe 制 作 一 张 输出 表 变 得 格外 容易 。 事 实 上 ， 我 们 可 以 
直接 复制 上 文 YesOnSelf. exe outputs 的 表 ， 将 所 有 “yes” 输 出 改 成 
“no”， 反 之 亦 然 。 这 么 做 得 到 的 结果 就 是 上 面 这 张 表 。 和 前 面 一 
样 ， 最 好 逐条 审视 表 中 每 一 行 ， 确 认 你 同意 输出 栏 中 每 一 项 。 当 输入 
文件 为 是 一 否 程序 时 ， 你 可 以 用 前 页 框 中 的 简单 前 释 ， 而 非 弄 懂 更 早 
之 前 给 出 的 更 复杂 的 解释 。 

















AntiYesOnSelf.exe outputs 
输入 文件 
address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 

ProgramB.exe 

NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
AntiYesOnSelf.exe 





AntiYes0nSe1f. exe 运 行 多 个 输入 的 输出 。 根 据 定义 ，AntiYes0nSe1f. exe 会 生成 
Yes0nSe1f. exe 相 反 的 答案 ， 因 此 这 张 表 一 除了 最 后 一 行 和 Yes0nSe1f. exe 的 
一 样 ， 只 是 “yes” 输 出 换 成 了 “no”， 反 之 亦 然 。 如 文中 讨论 的 一 样 ， 判 定 最 后 一 
行 极 其 困难 。 





你 能 从 表 中 最 后 一 行 看 出 ， 当 我 们 尝试 计算 AntiYesOnSelf. exe 在 
目 和 号 上 运行 时 的 输出 时 ， 一 个 问题 产生 了 。 为 帮助 我 们 分 析 这 一 问 
题 ， 让 我 们 进一步 简化 AntiYesOnSelf. exe 在 上 页 框 中 的 描述 ， 与 其 考 


虑 将 所 有 可 能 的 是 一 人 否 程序 当 作 输入 ， 我 们 将 集中 精力 于 
AntiYesOnSelf. exe 将 目 身 作为 输入 运行 时 发 生 的 情况 。 因 此 ， 框 中 以 


斜体 表示 的 问题 “输入 程序 会 …… ”可 以 转述 为 “AntiYesOnSelf. exe 
会 ……: ”一 一 因为 输入 程序 即 AntiYesOnSelf. exe。 这 是 我 们 需要 的 最 





终 阐 释 ， 因 此 它 也 在 下 面 框 中 展示 。 





现在 我 们 准备 好 得 出 AntiYesOnSelf. exe 在 自身 上 运行 的 输出 。 输 
出 存在 两 种 可 能 性 “yes” 和 “no”) ， 因 此 完成 这 一 问题 应 该 不 会 
太 难 。 我 们 将 逐一 处 理 每 个 例子 。 
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无 论 输 入 文件 是 否 是 一 个 是 一 奋 程序 ，AntiYesOQnSelf. exe 都 
回答 这 一 问题 : 


AntiYesOnSelf.exe 在 自身 上 运行 时 是 否 输 出 “no”? 


当 AntiYesOnSe1f. exe 将 自身 作为 输入 时 对 其 行为 的 简单 描述 。 注 意 ， 这 个 框 只 是 上 
文中 框 的 简化 版 ， 专 门 针 对 输入 文件 为 AntiYes0nSe1f. exe 的 例子 。 


阔 


mm ee ey 
we 


By 


例 1〈 输 出 为 “yes”) : 如 果 输 出 为 “yes”， 那 么 对 框 中 粗 体 问 
题 的 答案 就 是 “no”。 但 根据 定义 ， 粗 体 问 题 的 答案 是 
AntiYesOnSelf. exe 的 输出 《再 读 一 遍 框 中 内 容 以 让 自己 确信 ) 一 一 因 
此 ， 输 出 必 为 “no”。 总 之 ， 我 们 刚刚 证 明了 如 果 输 出 为 “yes”， 那 
么 输出 为 “no”。 不 可 能 ! 事实 上 ， 我 们 遇 到 了 一 处 矛盾 。《 如 果 你 
对 反 证 法 技巧 不 熟悉 ， 现 在 是 回顾 本 章 先 前 对 这 一 主题 讨论 的 好 时 
机 。 我 们 会 在 下 面 几 页 反复 用 到 这 一 技巧 。) 因为 我 们 得 到 了 一 处 矛 
盾 ， 我 们 对 输出 是 “yes” 的 假设 必然 不 成 立 。 我 们 已 经 证 明 ， 
AntiYesOnSelf. exe 在 上 自身 上 运行 时 的 输出 不 可 能 为 “yes”。 让 我 们 
转 同 男 一 种 可 能 性 。 











例 2《〈 输 出 为 “no”) : 如 果 输 出 为 “no”， 那 么 对 框 中 粗 体 问题 
的 管 案 束 是 “yes”。 但 和 例 1 一 样 ， 根 据 定义 ， 粗 体 问 题 的 答案 是 
AntiYesOnSelf. exe 的 输出 一 一 因此 ， 输 出 必须 为 “yes”。 换 言 之 ， 
我 们 刚刚 证 明了 如 果 输 出 为 “no”， 那 么 输出 为 “yes”。 和 上 例 一 
样 ， 我 们 得 到 了 一 处 矛盾 ， 因 此 我 们 对 输出 是 “no” 的 假设 必然 不 成 
并 。 我 们 已 经 证 明 ，AntiYesOnSelf. exe 在 目 身 上 运行 时 的 输出 不 可 能 
为 Ys 





现在 怎么 办 ? 我 们 已 经 排除 了 AntiYesOnSelf. exe 在 自身 上 运行 时 
仅 有 的 两 种 可 能 输出 。 这 同样 是 一 个 矛盾 : AntiYesOnSelf. exe 被 定义 
为 一 个 是 一 否 问题 一 一 一 个 永远 以 生成 “是 ”或 “ 否 ” 两 个 输出 之 一 
结束 的 程序 。 然 而 ， 我 们 刚刚 展示 了 一 个 特殊 输入 ， 而 
AntiYesOnSelf. exe 用 这 个 输入 运行 并 不 生成 任 一 上 述 输出 ! 这 一 矛盾 
音 示 我 们 最 初 的 假设 为 假 : 因此 ， 并 不 可 能 编写 一 个 行为 和 
AntiYesOnSelf. exe 相 像 的 是 一 否 软 件 。 





现在 你 应 该 知道 了 ， 为 什么 我 非常 小 心地 坦然 承认 自己 并 未 编写 
过 AlwaysYes. exe 、Yes0n-Self. exe 或 AntiYes0nSelf. exe 中 任何 一 
个 。 我 所 做 的 只 是 描述 如 果 我 确实 编写 了 它们 ， 这 些 程 序 会 如 何 表 
现 。 在 上 一 段 中 ， 我 们 使 用 了 反 证 法 展示 AntiYesOnSelf. exe 不 可 能 存 
在 。 但 我 们 能 证 明 更 多 : AlwaysYes. exe 和 YesOnSelf. exe 也 不 可 能 存 
在 ! 为 什么 ? 你 应 该 能 猜 到 ， 关 键 工 具 还 是 反 证 法 。 回 忆 我 们 在 上 文 
讨论 如 果 AlwaysYes. exe 存 在 时 的 情景 ， 对 讨论 过 程 稍 作 修改 并 得 出 
YesOnSelf. exe 是 否 存 在 的 答案 应 该 会 很 容易 。 而 如 果 YesOnSelf. exe 
存在 ， 那 么 得 出 AntiYesOnSelf. exe 是 否 存在 的 答案 也 会 极其 容易 ， 
为 我 们 只 须 逆 转 输 出 即 可 〈 将 “no” 换 成 “yes”， 反 之 亦 然 ) 。 总 
之 ， 如 果 AlwaysYes. exe 存 在 ， 那 么 AntiYesOnSelf. exe 也 存在 。 但 我 
们 已 经 知道 AntiYesOnSelf. exe 不 可 能 存在 ， 因 此 AlwaysYes. exe 也 不 
可 能 存在 。 同 样 的 论点 也 显示 Yes0nSelf. exe 不 可 能 存在 。 











记 住 ， 这 整个 部 分 只 是 一 块 踏 脚 石 ， 我 们 的 最 终 目标 是 证 明 骨 演 
寻找 程序 不 可 能 存在 。 本 部 分 更 适中 的 目标 是 举 一 些 不 可 能 存在 的 程 
序 的 例子 。 我 们 已 经 通过 检验 三 个 不 同 的 程序 达到 了 这 一 目标 ， 那 三 
个 程序 没有 一 个 可 能 存在 。 在 这 三 个 程序 中 ， 最 有 趣 的 要 数 
AlwaysYes. exe。 另 两 个 则 相当 乏味 ， 这 两 个 例子 主要 讲 以 目 身 为 输入 
运行 的 程序 的 行为 。 男 一 方面 ，AlwaysYes. exe 是 个 非常 强大 的 程序 ， 
因为 只 要 它 存 在 ， 就 能 分 析 其 他 任 一 程序 ， 并 告诉 我 们 那个 程序 是 否 
永远 会 输出 “yes”。 但 我 们 现在 已 经 知道 ， 没 人 能 编写 出 如 此 聪明 、 
有 用 的 程序 。 


| 发 现 崩 尝 的 不 可 能 性 


我 们 终于 准备 好 开始 探讨 一 个 程序 是 否 存在 的 证 据 ， 这 个 程序 能 
成 功 分 析 其 他 程序 并 判定 它们 是 否 会 骨 演 : 具体 来 说 ， 我 们 要 证 明 这 
样 一 个 程序 不 可 能 存在 。 在 读 完 上 面 几 页 后 ， 你 也 许 猜 到 了 我 们 会 用 
反 证 法 。 我 们 一 开始 会 假设 存在 这 样 一 个 程序 : 有 些 名 为 
CanCrash. exe 的 程序 能 分 析 其 他 程序 并 判定 它们 是 否 会 月 沉 。 在 对 
CanCrash. exe 做 一 些 奇怪 、 神 秘 、 令 人 高 兴 的 事情 后 ， 我 们 会 倍 到 一 
处 矛盾 。 






































TroubleMaker. exe 


TroubleMakerexe has encountered a problem and needs to ms 
cilose. We are Sorry for the inconvenience. 


fyou Were inthe middle of something. the inftormation you were working on might be 
lost. 


Please tell Microsoft about this problem. 


We heave created an error reportthat you can send to us. We will treat this 
report as confidential and enonymous. 


To sse what data this srror report contains, tlick here. 


Debug | SendErorRepon | | DontSend | 





某 种 操作 系统 谣 溃 后 的 结果 。 不 同 的 操作 系统 以 不 同方 式 处 理 航 溃 ， 但 我 们 在 遇 到 
前 溃 时 都 知道 。 这 个 故意 编写 出 来 的 TroubleMaker. exe 会 导致 月 涡 ， 证明 故 意 导 致 
谣 溃 很 容易 实现 。 





证 明 过 程 中 有 一 步 要 求 我 们 更 改 一 个 运行 良好 的 程序 ， 让 程序 在 
特定 情况 下 骨 演 。 我 们 如 何 做 到 这 件 事 ? 事实 上 ， 这 件 事 很 容易 。 程 
序 朋 演 的 原因 很 多 。 其 中 一 种 较为 常见 的 原因 是 程序 尝试 除 以 零 。 在 
数学 中 ， 用 任何 数 除 以 零 得 到 的 结果 都 是 “未 定义 ” (undefined) 。 
在 计算 机 中 ，“ 未 定义 ”是 个 严重 错误 ， 程 序 不 能 继续 束 会 月 尝 。 
此 ， 让 程序 故意 崩 尝 的 一 种 简单 方法 是 ， 在 程序 中 插入 几 段 会 让 程序 
除 以 零 的 多 余 指 令 。 事 实 上， 这 也 正 是 我 在 上 图 列举 
TroubleMaker. exe 例 子 的 原因 。 























现在 我 们 开始 证 明 崩 演 发 现 程 序 不 可 能 性 的 主要 过 程 。 下 图 总 结 
了 论证 流 。 我 们 一 开始 假设 存在 是 一 否 程 序 CanCrash. exe， 如 果 作 为 
输入 的 程序 会 在 某 种 情况 下 骨 涡 ，CanCrash. exe 就 会 输出 “yes” 并 结 
束 ; 如 果 输 入 程序 永 不 会 朋 演 ， 则 CanCrash. exe 束 会 输出 “no” 并 续 
束 。 


程序 行为 


如 果 输 入 能 月 读 ， 输 出 yes 
CanCrash.exe 如 果 输 入 从 不 骨 读 ， 输 出 no 


| 


如 采 输 入 能 崩溃 ， 骨 种 


CanCrashWeird.exe 如 果 输 入 从 不 月 浇 ， 输 出 no 


| 


如 果 输 入 在 自身 上 运行 时 崩溃 ， 崩 溃 
CrashOnSelf.exe 
- 如 果 输 入 在 自身 上 运行 时 不 月 江 ， 
输出 no 


如 果 输 入 在 自身 上 运行 时 崩溃 ， 输 出 yes 


AntiCrashOnSelf.exe ee ee 
如 果 输 入 在 自身 上 运行 时 不 崩溃 ， 戎 溃 





一 条 证 明 四 个 前 溃 侦 测 程序 不 可 能 存在 的 序列 。 最 后 一 个 程序 AntiCrashOnSe1f. exe 
很 显然 不 可 能 ， 因 为 它 在 自身 上 运行 时 会 产生 矛盾 。 然 而， 每 个 程序 都 能 通过 对 上 
一 个 程序 作出 小 改变 轻易 得 到 〈 如 箭头 所 示 ) 。 因 此 ， 这 四 个 程序 都 不 可 能 存在 。 


现在 我 们 对 CanCrash. exe 做 些 诡异 的 改变 : 和 输出 “yes” 不 同 的 
是 ， 我 们 会 让 CanCrash. exe 崩 沉 。【〔 正 如 上 面 所 讨论 的 ， 很 容易 通过 
故意 除 以 零 做 到 这 一 点 。) 让 我 们 称 改 变 后 的 程序 为 
CanCrashWeird.exe 。 因 此， 如 果 输 入 会 骨 演 ， 那 么 
CanCrashWeird. exe 这 个 程序 也 会 故意 朋 演 形成 的 对 话 框 外 观 类 似 于 
上 图 ) ， 如 果 输 入 永 不 会 朋 涡 ， 则 CanCrashWeird. exe 会 输出 “no”。 





图 中 显示 的 下 一 步 是 将 CanCrashWeird. exe 转 换 成 一 个 更 模糊 的 程 
序 ， 我 们 将 其 称 为 CrashOnSelf.exe 。 这 个 程序 和 上 一 部 分 的 
YesOnSelf. exe 一 样 ， 只 关注 程序 在 将 自 吴 作为 输入 时 运行 的 表现 。 特 
别 要 说 明 的 是 ，CrashOnSelf. exe 会 检测 其 输入 程序 ， 如 果 输 入 程序 能 
在 自 里 上 运行 ， 则 CrashOnSelf.exe 会 故意 月 尝 。 反 之 ， 
CrashOnSelf. exe 会 输出 “no”。 注 意 ， 从 CanCrashWeird. exe 得 到 
CrashOnSelf. exe 很 容易 : 这 一 过 程 和 我 们 在 第 上 文 讨论 的 将 
AlwaysYes. exe 转 换 成 Yes0nSelf. exe 的 过 程 一 样 。 














图 中 四 个 程序 序列 的 最 后 一 步 就 是 将 Crash0nSelf. exe 转 换 成 
AntiCrashOnSelf. exe。 这 简单 的 一 步 违背 了 程序 的 行为 : 如 果 其 输入 
在 自 届 上 运行 时 朋 溃 ，AntiCrashOnSelf. exe 输 出 “yes”。 但 如 果 输 
入 在 自身 上 运行 时 不 和 朋 涡 ，AntiCrashOnSelf. exe 就 会 故意 月 省。 


现在 我 们 抵达 了 生成 一 处 予 盾 的 地 方 。AntiCrashOnSelf. exe 将 自 
己 作 为 输入 运行 时 会 输出 什么 ? 根据 其 自身 的 描述 ， 如 果 输 入 骨 溃 ， 
AntiCrashOnSelf.exe 就 会 输出 “yes”。 (矛盾 ， 为 如 果 
AntiCrashOnSelf. exe 己 经 朋 演 ， 它 就 不 能 成 功 输出 “yes” 并 结 
束 。) 还 是 根据 其 自 遇 的 描述 ， 如 果 输 入 不 骨 深 ， 则 
AntiCrashOnSelf. exe 应 骨 溃 一 一 这 一 点 也 自 相 矛盾 。 我 们 已 经 排除 了 
AntiCrashOnSelf.exe 两 种 可 能 的 行为 ， 这 也 意味 着 
AntiCrashOnSelf. exe 一 开始 就 不 可 能 存在 。 





最 后 ， 我 们 可 以 用 上 页 图 中 显示 的 转换 链 证 明 CanCrash. exe 也 不 
可 能 存在 。 如 果 它 确实 存在 ， 我 们 就 能 按 图 中 第 头 所 示 将 其 转换 成 
AntiCrashOnSelf. exe 一 一 但 我 们 已 经 证 明 AntiCrashOnSelf. exe 不 可 
能 存在 。 这 是 矛盾 之 处 ， 因 此 我 们 假设 CanCrash. exe 存 在 必 为 假 。 


| 停机 问题 和 不 可 判定 性 











这 了 就 对 我 们 经 历 计 算 机 科学 中 最 成 熟 、 最 伟大 的 问题 之 一 进行 了 
总 结 。 我 们 已 经 证 明 ， 绝 对 不 可 能 有 人 能 编写 出 一 个 像 CanCrash. exe 
这 样 的 程序 : 分 析 其 他 程序 并 辨认 程序 中 可 能 导致 其 朋 涡 的 所 有 可 能 
漏洞 。 





事实 上 ， 当 理论 计算 机 科学 创始 人 阿兰 。 图 灵 首 次 于 20 世 纪 30 年 
代 证 明 一 个 像 这 样 的 结果 时 ， 他 对 漏洞 或 朋 溃 完全 不 关心 。 毕 竟 ， 当 
时 还 没有 电子 计算 机 。 相 反 ， 图 灵 对 一 个 已 有 计算 机 程序 最 终 能 否 
成 答案 很 感 兴趣 。 一 个 联系 紧密 的 问题 是 : 一 个 已 有 计算 机 程序 是 个 
会 结束 一 一 或 者 说 它 是 否 会 永远 计算 下 去 ， 而 不 生成 一 个 答案 ? 这 个 
己 有 计算 机 程序 最 终 是 否 会 结束 或 “停止 ”的 问题 就 是 著名 的 停机 问 
题 (the halting problem) 。 图 灵 的 伟大 成 束 在 于 ， 计 算 机 科学 家 称 
图 灵 从 停机 问题 得 到 的 变 体 问 题 “ 不 可 判定 ”。 不 可 判定 问题 指 不 能 
通过 编写 计算 机 程序 解决 的 问题 。 因 此 ， 男 一 种 表述 图 灵 结 果 的 方式 
是 : 你 不 能 编写 一 个 名 为 AlwaysHalts.exe， 输 入 永远 停止 时 输出 
“yes”， 反 之 输出 “no” 的 计算 机 程序 。 























从 这 个 角度 看 ， 停 机 问题 和 本 章 处 理 的 问题 非常 相似 ， 我 们 可 以 
把 本 章 处 理 的 问题 称 为 朋 溃 问题 。 我 们 证 明了 骨 溃 问题 的 不 可 判定 
性 ， 但 你 基本 上 可 以 使 用 相同 技巧 证 明 停 机 问题 也 不 可 判定 。 而 且 ， 
正如 你 所 猜测 的 ， 计 算 机 科学 还 有 许多 其 他 问题 不 可 判定 。 


| 不 可 能 程序 的 应 用 有 哪些 ? 


我 收录 这 一 章 是 故意 作为 先前 章节 的 对 照 。 前 面 每 一 章 都 捍卫 了 
一 个 绝 佳 思 想 ， 每 个 思想 都 会 让 计算 机 更 强大 ， 对 人 类 更 有 用 。 在 本 
章 ， 我 们 见识 了 计算 机 最 基础 的 限制 之 一 。 我 们 见识 到 ， 有 些 问 题 根 
本 不 可 能 通过 计算 机 解决 ， 不 管 计 算 机 有 多 强大 或 人 类 程序 员 有 多 聪 























明 。 这 些 不 可 判定 问题 包括 潜在 的 有 用 任务 ， 如 分 析 其 他 程序 以 发 现 


它们 是 否 会 月 误 。 


这 一 奇怪 的 事实 一 一 有 时 甚至 先 验 一 一 有 什么 影响 ? 不 可 判定 问 
题 的 存在 会 影响 我 们 在 实际 中 使 用 计算 机 吗 ? 人 类 在 人 脑 中 进行 的 计 
算 呢 ， 人 脑 也 不 能 处 理 不 可 判定 问题 吗 ? 


上 不 可 判定 性 和 计算 机 使 用 


让 我 们 首先 来 探讨 一 下 不 可 判定 性 对 计算 机 使 用 的 实际 影响 。 答 
案 很 简短 : 不 ， 不 可 判定 性 对 计算 的 日 常 实践 没有 太 大 影响 。 原 因 有 
两 个 。 第 一 ， 不 可 判定 性 只 关注 计算 机 程序 能 否 生 成 答案 ， 并 不 考虑 
我 们 需要 等 答案 多 久 。 然 而 ， 在 实践 中 ， 效 率 问 题 〈 也 就 是 你 必须 等 
答案 多 久 ) 极其 重要 。 有 许多 可 判定 任务 还 没有 高 效 算 法 。 其 中 最 著 
名 的 要 数 旅 行商 问题 (Traveling Salesman Problem) ， 人 简称 为 TSP。 
TSP 用 现代 术语 表述 如 下 : 假设 你 必须 飞 往 很 多 城市 (假设 是 20 个 或 30 
个 或 100 个 ) 。 你 应 该 采用 哪 种 顺序 访问 城市 才能 让 飞行 费用 最 少 ? 我 
们 知道 这 个 问题 是 可 判定 的 一 一 事实 上 ， 只 要 少量 经 验 的 新 手 程序 员 
就 能 编写 一 个 计算 机 程序 寻找 通过 这 些 城市 最 便宜 的 航线 。 问 题 是 程 
序 可 能 要 花 数 百 万 年 时 间 来 完成 这 项 工作 。 在 实践 中 ， 这 并 不 够 好 。 
因此 ， 问 题 可 判定 这 一 事实 并 不 意味 着 我 们 可 以 在 实际 中 解决 它 。 





























不 可 判定 性 实际 效果 有 限 的 第 二 个 原因 是 : 我 们 在 大 部 分 时 间 里 
都 能 很 好 地 解决 不 可 判定 问题 。 本 章 的 主要 例子 就 对 此 进行 了 很 好 的 
展示 。 我 们 按照 一 个 详尽 的 论证 过 程 证 明 ， 没 有 计算 机 程序 能 发 现 所 
有 计算 机 程序 中 所 有 的 漏洞 。 但 我 们 仍然 能 尝试 编写 一 个 漏洞 及 现 程 
序 ， 布 望 其 发 现 大 多 数 计 算 机 程序 中 绝 大 多 数 漏 洞 。 事 实 上 ， 这 是 计 
算 机 科学 中 一 个 非常 活路 的 研究 领域 。 我 们 在 过 去 几 十 年 所 见 到 的 软 


件 可 靠 性 提升 部 分 得 荔 于 册 尝 发 现 程序 的 进步 。 因 此 ， 通 党 能 为 不 可 
判定 问题 找到 非常 有 用 的 部 分 解决 方案 。 


不 可 判定 性 和 人 脑 


不 可 判定 问题 的 存在 对 人 类 思考 过 程 有 影响 吗 ? 这 一 问题 会 直接 
引出 哲学 中 一 些 高 深 的 经 典 问题 ， 如 意识 的 定义 ， 理 智和 大 脑 的 区 别 
等 。 不 管 怎样 ， 我 们 对 一 件 事 很 清楚 : 如 果 你 相信 人 脑 在 原则 上 能 被 
计算 机 模拟 ， 那 么 人 脑 就 会 和 计算 机 受 相 同 的 限制 。 换 言 之 ， 会 存在 
人 脑 无 法 解决 的 问题 一 一 不 管 这 个 人 脑 有 多 聪明 或 经 过 多 么 民 好 的 训 
练 。 这 一 结论 紧 随 本 章 主要 管 案 之 后 出 现 。 如 果 人 脑 能 被 计算 机 程序 
模拟 ， 而 人 脑 能 解决 不 可 判定 问题 ， 那 么 我 们 也 可 以 用 计算 机 模拟 人 
脑 解决 不 可 判定 问题 一 一 这 与 计算 机 程序 不 能 解决 不 可 判定 问题 的 事 
实 相 矛盾 。 


当然 ， 我 们 是 否 能 让 计算 机 精确 模拟 人 脑 的 问题 还 远 未 解决 。 从 
科学 观点 来 看 ， 人 脑 和 计算 机 之 间 似 乎 没有 什么 基本 壁垒 ， 因 为 化 学 
和 电子 信号 在 人 脑 中 传输 的 低级 细 市 很 好 理解 。 男 外 ， 多 种 哲学 论据 
首 示 ， 人 脑 创造 “理智 ”的 物理 过 程 在 性 质 上 与 计算 机 能 模拟 的 任何 
物理 系统 有 所 不 同 。 这 些 哲 学 论据 形式 多 样 ， 基 于 我 们 的 自省 和 直觉 
能 力 ， 或 对 灵性 的 退 求 。 

















这 个 问题 与 阿兰 。 图 灵 在 1937 年 发 表 的 有 关 不 可 判定 性 的 论文 之 
间 有 一 段 迷 人 的 联系 。 这 篇 论文 被 许多 人 视 为 让 计算 机 成 为 一 门 学 科 
的 基石 。 不 幸 的 是 ， 这 篇 论文 的 标题 相当 模糊 : 标题 以 听 起 来 很 乏味 
的 短语 “关于 可 计算 数字 ……: ” (On computable numbers) 开头 ， 结 
尾 却 以 “……… 及 判定 问题 的 应 用 ” (with an application to the 
Entscheidungsproblem) 复 然而 止 。 我们 在 这 里 不 会 集中 讨论 标题 
的 第 二 部 分 ! ) 在 20 世 纪 30 年 代 ，“computer” 《计算 机 ) 这 个 单词 
的 意义 和 现在 完全 不 同 。 对 于 图 灵 来 说 ， 一 台 “ 计 算 机 ”就 是 一 个 
人 人， 用 铅笔 和 纸 做 些 算术 。 因 此 ， 图 灵 论 文 标题 中 的 “可 计算 数字 ?” 


原则 上 是 能 被 人 计算 的 数字 。 但 为 辅助 他 的 论据 ， 图 灵 描 述 了 一 种 同 
样 能 计算 的 特殊 机 器 《对 于 图 灵 而 言 ， 一 台 “ 机 需 ” 就 是 我 们 所 称 的 
“计算 机 ”) 。 论 文部 分 内 容 引 在 展示 特定 计算 不 可 能 由 这 些 机 器 执 
行 一 一 这 就 是 我 们 已 经 细致 讨论 过 的 不 可 判定 性 论证 。 但 同一 论文 的 
为 一 部 分 提出 了 一 个 细致 且 有 说 服 力 的 论据 ， 图 灵 的 “机 占 ”【〔 请 妆 
作 计 算 机 来 读 ) 能 执行 由 “计算 机 ”请 当 作 人 来 读 ) 执行 的 任何 计 
算 。 


你 也 许 开始 能 理解 为 何 伟 大 叙述 图 灵 “ 关 于 可 计算 数字 ……: ” 论 
文 潜在 本 质 很 困难 了 。 这 篇 论文 不 仅 定 义 及 解决 了 计算 机 科学 中 一 些 
最 基本 的 问题 ， 还 深入 哲学 领域 ， 举 出 了 一 个 具有 说 服 力 的 例子 ， 表 
明 人 类 思考 过 程 可 以 被 计算 机 模拟 。《〈 记 住 ， 当 时 计算 机 还 没有 被 发 
明 ! ) 在 现代 哲学 用 语 中 ， 认 为 所 有 计算 机 《还 有 可 能 包括 人 ) 具有 
相同 计算 能 力 的 想法 以 印 奇 一 图 灵 论 题 (Church - Turing thesis) 而 
闻名 。 这 一 名 称 同时 间 阿 兰 。 图 灵 和 阿 隆 佐 。 皂 奇 致敬 。 阿 隆 佐 。 邢 
奇 〈 之 前 提 到 过 ) 单独 发 现 了 不 可 判定 问题 的 存在 。 事 实 上 ， 邢 奇 比 
图 灵 早 几 个 月 发 表 上 自己 的 成 果 ， 但 印 奇 的 公式 更 为 抽象 ， 且 并 未 详尽 
提 及 由 机 器 执行 的 计算 。 








对 邮 奇 一 图 灵 论 题 有 效 性 的 争论 不 断 升温 。 但 如 果 按 照 最 强 版 本 
的 印 奇 一 图 灵 论 题 所 持 有 的 观点 ， 那 么 并 非 只 有 计算 机 向 不 可 判定 性 
限制 俯首 称臣 。 同 样 的 限制 不 仅 适用 于 我 们 指 尖 的 精 录 ， 而 且 也 适用 
于 精灵 背后 的 精 姑 : 我 们 的 理智 。 


第 十 一 半 ”结论 一 一 更 多 在 你 指 尖 的 精灵 


见 前 方 不 远 处 ， 但 我 们 能 看 到 有 
许多 事情 需要 完成 。 





阿兰 。 图 灵 ， 
《计算 机 器 与 智能 》，1950 年 
很 季 运 ， 我 于 1991 年 参加 了 伟大 理论 物理 学 家 史 带 分 。 和 霍金 
(Stephen Hawking) 举行 的 公开 演讲 。 在 这 场 名 为 “宇宙 未 来 ” 
(The Future of the Universe) 的 宏大 演讲 期 间 ， 和 霍金 信心 满 满 地 
预测 ， 宇 宙 至 少 还 会 膨胀 100 亿 年 。 他 还 扮 着 兰 相 补 充 道 : “ 当 我 的 观 
点 被 证 明 错 误 时 ， 我 应 该 不 在 了 。 ”对 我 来 说 ， 不 幸 的 是 ， 有 关 计 算 
机 科学 的 预测 并 没有 宇宙 学 家 能 得 到 的 100 亿 年 保质 期 。 我 做 的 任何 预 
测 都 有 可 能 在 有 生 之 年 被 反驳 。 








但 这 不 应 该 阻止 我 们 思考 计算 机 伟大 思想 的 未 来 。 我 们 探索 过 的 
伟大 算法 会 永远 “伟大 ” 吗 ? 其 中 一 些 会 过 时 吗 ? 会 有 新 的 伟大 算法 
出 现 吗 ? 要 回答 这 些 问题 ， 我 们 需要 更 多 地 像 历 史学 家 而 非 宇宙 学 家 
一 样 思考 。 这 让 我 想起 了 许多 年 前 的 咏 一 次 经 验 ， 在 电视 中 观看 由 备 
受 争议 的 牛津 知名 历史 学 家 A. J. P. 泰勒 所 做 的 一 些 演讲 。 在 那个 系列 
演讲 末尾 ， 泰 勒 直 接 回 答 了 会 否 有 第 三 次 世界 大 战 的 问题 。 他 认为 答 
案 为 “是 ”， 因 为 人 类 很 有 可 能 “在 未 来 像 过 去 所 做 过 的 一 样 行 
事 ”。 














因此 ， 让 我 们 跟随 A。J.P“。 泰勒 的 领导 ， 回 历史 的 宏大 鞠躬 。 本 
书 描述 的 伟大 算法 得 自 贯 罕 20 世 纪 的 事件 及 发 明 。 似 乎 假设 21 世 纪 以 
类 似 步伐 前 进 很 合理 ， 每 隔 20 或 30 年 就 有 一 类 新 算法 窑 露 头角 。 在 一 
些 情况 中 ， 这 些 算法 会 具备 怀 人 的 原创 性 ， 是 科学 家 们 梦 几 以 求 的 全 
新 搁 术 。 公 和 钥 加 密 和 相关 的 数字 签名 算法 就 是 这 类 算法 的 例子 。 在 其 
他 情况 中 ， 算 法 也 许 已 经 在 实验 社区 存在 了 一 段 时 间 ， 等 待 借助 合适 
的 新 技术 潮流 让 它们 得 到 广泛 应 用 。 索 引 和 排名 的 搜索 算法 就 属于 这 
类 : 类 似 算法 在 名 为 信息 检索 的 领域 存在 了 多 年 ， 但 网 络 搜索 现象 让 
这 些 算法 变 得 “伟大 ”一 一 在 普通 计算 机 用 户 日 常 使 用 的 意义 上 。 当 
然 ， 这 些 算法 为 目 己 的 新 应 用 而 进化 ，PageRank 算 法 就 是 个 好 例子 。 




















注意 ， 新 技术 的 出 现 并 不 一 定 会 导致 新 算法 产生 。 想 想 笔 记 本 电 
脑 在 20 世 纪 80 年 代 及 90 年 代 的 显著 增长 。 通 过 极 大 增加 可 访问 性 和 便 
携 性 ， 笔 记 本 电脑 革命 化 了 人 们 使 用 计算 机 的 方式 。 笔 记 本 电脑 还 引 
发 了 多 个 领域 极其 巨大 的 进步 ， 如 屏 医 技术 和 电池 管理 技术 。 但 照 我 
看 ， 目 笔记 本 电脑 革命 以 来 再 没有 伟大 算法 出 现 。 相 反 ， 互 联网 的 出 
现 就 是 一 项 导致 许多 伟大 算法 出 现 的 技术 : 互联 网 通过 提供 搜索 引擎 
能 存在 的 基础 膝 构 ， 让 索引 和 排名 算法 得 以 跻身 伟大 算法 行列 。 


因此 ， 尺 管 搁 术 革新 不 可 置疑 的 加 速 继续 在 我 们 周围 出 现 ， 但 并 
不 能 保证 新 的 伟大 算法 的 出 现 。 事 实 上 ， 相 反方 向 上 有 一 种 强大 的 历 
史 力 量 在 作用 ， 上 暗示 算法 创新 的 步伐 将 在 未 来 减 慢 。 我 说 的 是 计算 机 
科学 作为 一 门 科学 学 科 开 始 成 熟 。 同 物理 学 、 数 学 和 化 学 等 领域 相 
比 ， 计 算 机 科学 非常 年 轻 : 它 于 20 世 纪 30 年 代 发 端 。 因 此 ，20 世 纪 发 
现 的 伟大 算法 也 许 已 经 是 唾 手 可 得 的 硕果 ， 在 未 来 发 现 广 泛 应 用 的 精 
巧 算法 将 变 得 越 来 越 困 难 。 


因此 ， 我 们 有 两 个 相互 竞争 的 效果 : 新 技术 提供 的 新 活动 
Cniche) 时 常 为 新 算法 提供 空间 ， 而 该 领域 的 逐渐 成 熟 会 缩小 这 些 机 











会 。 总 之 ， 我 倾向 于 认为 这 两 种 效果 会 彼此 中 和 ， 让 未 来 新 的 伟大 算 
法 缓慢 但 稳定 地 出 现 。 


一 些 可 能 的 伟大 算法 


当然 ,一 些 新 的 伟大 算法 会 以 完全 出 人 意料 的 方式 出 现 ， 现 在 也 
不 可 能 对 未 来 的 伟大 算法 说 些 什 么 。 但 一 些 现存 的 活动 和 技术 有 很 清 
晰 的 潜力 。 其 中 一 个 明显 趋势 是 人 工 智能 在 日 常生 活 中 的 逐渐 使 用 
《特别 是 图 形 识别 ) ， 如 果 有 任何 令 人 震 恢 的 轿 新 算法 瑰宝 在 这 一 领 
域 出 现 ， 会 让 人 非常 着 迷 。 











男 一 个 潜力 非凡 的 领域 是 一 类 名 为 “ 零 知识 协议 ” (zero 
knowledge protocols) 的 算法 。 这 些 协议 使 用 一 种 特殊 的 加 密 方法 ， 
以 实现 一 些 比 数字 签名 更 令 人 惊讶 的 事情 : 它们 能 让 两 个 或 更 多 实体 
将 信息 组 织 起 来 ， 而 不 用 显示 任何 单 块 信息 。 零 知识 协议 的 潜在 用 途 
之 一 是 在 线 拍卖 。 通 过 使 用 该 协议 ， 苋 招 者 能 以 加 秘方 式 同 彼此 提交 
各 上 自 的 竞价 ， 从 而 判定 赢得 竞拍 的 人 ， 但 任何 其 他 竞价 的 信息 都 不 会 
癌 任 何人 展示 ! 如 果 零 知识 在 现实 中 运用 的 话 ， 这 样 一 个 聪明 的 想法 
肯定 会 轻易 满足 我 的 伟大 算法 行列 标准 。 但 目前 为 止 ， 它 们 还 未 被 广 
泛 使 用 。 








男 一 种 获得 众多 学 术 研 究 但 实际 应 用 有 限 的 思想 是 一 种 名 为 “分 
布 式 哈 希 表 ” (distributed hash table) 的 技术 。 这 些 表 是 一 种 在 
点 对 点 系统 中 一 一 一 个 没有 中 央 服 务 器 引导 信息 流 的 系统 一 一 存储 信 
县 的 精巧 方法 。 然 而 ， 在 写作 本 书 时 ， 许 多 号 称 点 对 点 的 系统 实际 上 
仍 在 一 些 功 能 上 使 用 中 央 处 理 器 ， 因 此 无 需 依 赖 分 布 式 哈 希 表 。 


“拜占庭 容错 ” (Byzantine fault tolerance) 技术 也 属于 这 一 
类 : 这 是 一 种 令 人 惊讶 但 美丽 的 算法 ， 不 过 仍然 不 能 算 作 伟大 ， 因 为 
没什么 人 有 用。 拜占庭 容错 允许 特定 计算 机 系统 耐 受 任何 种 类 的 错误 





《只 要 同时 不 出 现 太 多 错误 ) 。 这 与 平常 的 容错 概念 一 一 系统 能 幸免 
的 错误 更 轻微 ， 如 磁盘 驱动 器 永久 失效 或 操作 系统 骨 浊 一 一 相反 。 


La 


除了 推测 什么 算法 会 在 未 来 步 入 伟大 行列 之 外 ， 我 们 也 许 还 会 
想 ， 目 前 的 “伟大 ”算法 中 一 一 我 们 想 都 不 想 经 常用 到 的 不 可 取代 的 
工具 一 一 是 否 有 一 些 会 逐渐 丧失 其 重要 性 。 历 史 在 这 里 也 能 指引 我 
们 。 如 果 我 们 将 注意 力 限制 在 特定 算法 上 ， 算 法 肯定 会 丧失 重要 性 。 
最 明显 的 例子 在 密码 学 中 ; 在 发 明 新 加 密 算 法 的 研究 人 员 和 发 明 破解 
这 些 算法 安全 性 的 研究 人 员 之 间 ， 进 行 着 一 场 不 间断 的 军备 竞赛 。 作 
为 一 个 特例 ， 思 考 一 下 所 谓 的 加 密 喻 希 函 数 。 名 为 MD5 的 蛤 希 函 数 是 一 
个 官方 互联 网 标准 ， 自 20 世 纪 90 年 代 开始 广泛 使 用 ， 然 而 自 此 以 后 D5 
的 重大 安全 缺陷 被 不 断 发 现 ， 人 们 不 再 推荐 使 用 MD5。 类 似 的 ， 我 们 在 
第 九 章 讨论 过 这 一 事实 : 如 果 拱 建 一 个 合理 体积 的 量子 计算 机 成 为 可 
能 ，RSA 数 字 签 名 机 制 将 轻易 被 攻破 。 


然而 ， 我 认为 用 这 样 的 例子 来 回答 我 们 的 问题 太 片 面 。 的 确 ，MD5 
有 人 缺陷 《顺便 说 一 下 ， 其 主要 继承 者 SHA-1 也 是 ) ， 但 这 并 不 意味 着 加 
密 哈 希 函 数 的 中 心思 想 就 无 关 紧 要 了 。 的 确 ， 这 类 哈 希 函数 运用 得 非 
常 广泛 ， 也 还 有 许多 未 被 破解 的 算法 。 因 此 ， 我 们 用 足够 宽广 的 视角 
看 待 这 一 情况 ， 并 准备 好 在 获取 算法 主要 思想 时 适应 算法 特例 ， 现 今 
许多 伟大 算法 似乎 不 大 可 能 在 未 来 丧失 其 重要 性 。 


用 和 位 学 到 7 人 


能 从 本 书展 示 的 伟大 算法 中 得 出 什么 通用 主题 吗 ? 其 中 一 个 主题 
是 ， 所 有 大 思想 都 能 在 不 需要 任何 计算 机 编程 或 其 他 计算 机 科学 知识 























的 情况 下 得 到 解释 。 作 为 本 书 作 者 ， 我 感到 很 悚 讶 。 当 我 开始 着 手 这 
本 书 时 ， 我 以 为 能 将 这 些 伟 大 算法 分 成 两 类 。 第 一 类 是 一 些 核心 思想 
中 运用 了 简单 但 聪明 的 把 戏 的 算法 一 一 这 些 把 戏 无 须 任 何 技术 性 知识 
就 能 得 到 解释 。 第 二 类 算法 与 高 等 计算 机 科学 思想 联系 紧密 ， 不 能 所 
没有 该 领域 背景 知识 的 读者 解释 。 我 原 计划 通过 讲 些 第 二 类 算法 (可 
能 ) 有 趣 的 历史 轶 事 来 涵盖 一 些 这 类 算法 ， 解 释 它 们 的 重要 应 用 ， 并 
言 之 滑 滑 地 称 这 些 算法 非常 精巧 ， 即 便 我 不 能 解释 它们 如 何 运 行 。 当 
我 友 现 目 己 选择 的 所 有 算法 部 归 属 为 第 一 类 时 ， 想 想 我 有 多 珊 兴 、 多 
惊讶 ! 当然 ， 我 省 略 了 许多 重要 的 技术 细节 ， 但 在 每 个 例子 中 ， 让 整 
件 事 奏 效 的 关键 机 制 可 以 通过 使 用 非 专 业 性 概念 解释 。 





























本 书 所 有 算法 的 另外 一 个 重要 的 通用 主题 是 ， 计 算 机 科学 领域 并 
不 仅仅 是 编程 。 每 当 我 教授 一 门 入 门 计算 机 科学 谍 程 ， 我 都 会 要 求学 
告诉 我 ， 他 们 认为 计算 机 科学 究竟 是 什么 。 到 目前 为 止 ， 最 常见 的 
回答 是 “编程 ”， 或 类 似 的 “软件 工程 ”。 当 我 继续 要 求 他 们 说 出 计 
算 机 科学 的 其 他 方面 时 ， 许 多 学 生 被 难 住 。 但 接 下 来 回答 的 学 生 通 党 
会 说 些 和 硬件 有 关 的 东西 ， 如 “硬件 设计 ”。 这 是 对 计算 机 科学 家 真 
正 从 事 的 工作 的 一 种 流行 误解 的 强力 证 据 。 读 过 这 本 书后 ， 我 希望 你 
能 对 计算 机 科学 家 思考 的 问题 ， 他 们 提出 的 解决 方案 有 更 具体 的 了 
解 。 


在 这 里 举 个 简单 类 比 会 很 有 帮助 。 假 设 你 遇 到 了 一 位 主要 研究 兴 
趣 是 日 本 文学 的 教授 。 极 有 可 能 这 位 教授 能 说 、 读 以 及 写 日 文 。 但 如 
果 你 修 要 求 猜测 这 位 教授 在 进行 研究 时 在 什么 上 花 了 最 多 时 间 进 行 思 
考 ， 你 不 会 猜 是 “日 本 语言 ”。 尽 管 ， 日 本 语言 是 研究 组 成 日 本 文学 
的 主题 、 文 化 和 历史 的 必要 知识 。 男 一 方面 ， 说 一 口 完美 日 语 的 人 也 
许 完 全 无 视 日 本 文学 “日 本 可 能 有 数 百 万 这 样 的 人 ) 。 


























计算 机 编程 语言 和 计算 机 科学 主要 思想 之 间 的 关系 与 上 面 的 情况 
很 相似 。 要 应 用 并 实验 算法 ， 计 算 机 科学 研究 者 需要 将 算法 转换 成 计 








算 机 程序 ， 而 每 个 程序 都 由 Java、C++ 或 Python 等 编程 语言 编写 。 
此 ， 编 程 知识 是 计算 机 科学 家 所 必需 的 ， 但 却 只 是 前 提 : 在 见识 了 本 
书 中 的 伟大 算法 以 后 ， 我 希望 读者 们 能 对 这 一 区 别 有 更 清楚 的 理解 。 








旅程 终点 


我 们 已 经 抵达 深奥 但 也 日 常 的 计算 世界 的 终点 。 我 们 实现 上 自己 的 
目标 了 吗 ? 你 和 计算 设备 的 互动 会 因此 不 同 吗 ? 


下 族 当 你 访问 一 个 安全 网 站 时 ， 你 也 许 会 想 知 道 谁 为 其 可 信和 度 担 
保 ， 并 检查 你 的 网 络 浏览 融 侦 测 到 的 数字 证 书 链 〈 第 九 章 ) 。 或 者 当 
你 下 次 遇 到 在 线 交 易 因 为 未 知 原因 失败 时 ， 你 会 深 深 感 激 ， 而 不 是 轩 
惑 ， 因 为 你 知道 数据 库 一 致 性 会 确保 你 不 会 为 订购 失败 的 东西 付费 
《第 八 蔓 ) 。 或 者 未 来 茶 天 你 会 目 娱 目 乐 地 说 : “如 果 计 算 机 能 为 我 
做 这 件 事 该 多 好 啊 ” 一 一 但 你 知道 这 不 可 能 ， 因 为 使 用 在 骨 误 发 现 程 
序 中 用 到 的 相同 方法 ， 你 想 让 计算 机 做 的 任务 被 证 明 不 可 判定 “第 十 


EE 








我 肯定 你 能 想到 更 多 例子 ， 在 这 些 例子 中 ， 伟 大 算法 的 知识 也 许 
能 改变 你 与 计算 机 互动 的 方式 。 然 而 ， 正 如 我 在 前 言 中 仔细 说 明 的 ， 
这 并 非 本 书 的 主要 目的 。 我 的 主要 目的 是 让 读者 有 足够 多 和 伟大 算法 
有 关 的 知识 ， 让 他 们 在 一 些 日 常 计 算 任 务 时 能 遐想 片刻 一 一 就 像 一 名 
业余 天 文学 家 高 度 景 敬 夜 空 一 样 。 





只 有 你 一 一 我 的 读者 一 一 知道 我 是 否 成 功 地 实现 了 这 一 目标 。 但 
有 件 事 很 肯定 : 你 目 己 的 个 人 精灵 项 在 你 的 指 尖 。 请 目 由 使 用 。 


致谢 


你 这 条 我 走 大 的 ， 并 还 在 四 面 环 顾 着 的 路 啊 ， 我 相信 你 不 知 
眼下 这 一 点 ， 我 相信 这 里 也 还 有 许多 看 不 见 的 东西 。 


一 一 斌 尔 特 。 惠 特 曼 ， 


《大 路 歌 》 (Song of the Open Road ) (8 





许多 朋友 、 同 事 和 家 人 阅读 了 部 分 或 所 有 草稿 。 他 们 古 亚 历 死 斯 
“ 贝 菊 、 威 尔 森 。 贝 尔 、 麦 珊 。 巴 罗斯 、 沃 尔 特 。 死 邦 米 亚 元 、 迈 死 
尔 。 芯 院 德 、 阿 拉 斯 泰 尔 。 麦 考 密 苑 、 瑞 雯 。 支 考 密 苑 、 妮 可 莱 塔 。 
马里 尼 - 迈 欧 、 弗 兰 珊 。 麦 克 谢 里 、 死 莉 斯 订 。 米 切 尔 、 伊 莉 亚 。 米 
罗 语 夫 、 温 迪 。 波 拉 殉 、 朱 过 斯 .小 符 、 科 顿 。 西 勒 、 海 伦 ， 塔 卡 殉 
斯 、 库 纳 尔 。 塔 尔 瓦 、 带 姆 。 瓦 尔 斯 、 乔 纳 森 。 瓦 勒 、 马 迪 。 维 德 和 
奥 利 。 威廉 姆 斯 。 这 些 读者 的 建议 极 大 地 提升 了 书稿 的 质量 。 两 位 匿 
名 审阅 者 的 评论 也 让 书稿 得 到 了 很 大 提升 。 








克 里 斯 。 毕 晓 普 给 予 了 我 鼓励 和 建议 。 汤 姆 。 米 切 尔 给 予 了 我 在 
第 六 章 使 用 他 的 图 片 和 源 代码 的 授权 。 


在 孵化 本 项 目 并 让 它 开花 结果 上 ， 本 书 编辑 维 琪 。 元 恩 和 她 在 普 
林 斯 顿 大 学 出 版 社 的 同事 大 功 至 伟 。 








我 在 迪 金 森 学 院 数学 与 计算 机 科学 部 门 的 同事 对 本 书 予 以 了 持久 
支持 和 帮助 。 


迈 元 尔 。 艾 院 德 和 麦 元 。 巴 罗斯 问 我 展示 了 计算 的 愉 避 和 美丽 。 
安德鲁 ， 布 沫 克 教会 了 我 如 何 成 为 一 名 更 好 的 科学 家 。 


我 的 妻子 死 莉 斯 汀 一 直 在 文 持 我 。 
我 癌 以 上 所 有 人 致 以 最 深 的 谢意 。 本 书 并 我 的 爱 献 给 克 莉 斯 汀 。 


1. 选 目 赵 萝 菊 译 本 。 








